論文の概要: Fine-Tuning can Distort Pretrained Features and Underperform
Out-of-Distribution
- arxiv url: http://arxiv.org/abs/2202.10054v1
- Date: Mon, 21 Feb 2022 09:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 17:39:21.546738
- Title: Fine-Tuning can Distort Pretrained Features and Underperform
Out-of-Distribution
- Title(参考訳): ファインチューニングは事前訓練された特徴を歪曲し、分布の過小評価する
- Authors: Ananya Kumar, Aditi Raghunathan, Robbie Jones, Tengyu Ma, Percy Liang
- Abstract要約: 微調整は、事前訓練された特徴が良好で分布シフトが大きい場合、線形探索よりも精度が良くなる。
我々は,このIDとOODの精度のトレードオフが,簡単な設定でも生じることを理論的に示す。
解析の結果,線形探究の容易な2段階戦略は,線形探究と線形探究の両方の利点を併せ持つことが明らかとなった。
- 参考スコア(独自算出の注目度): 100.01469697743322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When transferring a pretrained model to a downstream task, two popular
methods are full fine-tuning (updating all the model parameters) and linear
probing (updating only the last linear layer -- the "head"). It is well known
that fine-tuning leads to better accuracy in-distribution (ID). However, in
this paper, we find that fine-tuning can achieve worse accuracy than linear
probing out-of-distribution (OOD) when the pretrained features are good and the
distribution shift is large. On 10 distribution shift datasets
(Breeds-Living17, Breeds-Entity30, DomainNet, CIFAR $\to$ STL, CIFAR10.1, FMoW,
ImageNetV2, ImageNet-R, ImageNet-A, ImageNet-Sketch), fine-tuning obtains on
average 2% higher accuracy ID but 7% lower accuracy OOD than linear probing. We
show theoretically that this tradeoff between ID and OOD accuracy arises even
in a simple setting: fine-tuning overparameterized two-layer linear networks.
We prove that the OOD error of fine-tuning is high when we initialize with a
fixed or random head -- this is because while fine-tuning learns the head, the
lower layers of the neural network change simultaneously and distort the
pretrained features. Our analysis suggests that the easy two-step strategy of
linear probing then full fine-tuning (LP-FT), sometimes used as a fine-tuning
heuristic, combines the benefits of both fine-tuning and linear probing.
Empirically, LP-FT outperforms both fine-tuning and linear probing on the above
datasets (1% better ID, 10% better OOD than full fine-tuning).
- Abstract(参考訳): 事前訓練されたモデルを下流タスクに転送する場合、2つの一般的なメソッドは完全な微調整(モデルパラメータの更新)と線形探索(最後の線形層である"ヘッド"を更新)である。
微調整によって精度が向上すること(id)が知られている。
しかし,本論文では,事前学習した特徴が良好で分布シフトが大きい場合に,線形分布分布(OOD)よりも微調整の方が精度が良いことを示す。
10の分散シフトデータセット(Breeds-Living17, Breeds-Entity30, DomainNet, CIFAR $\to$ STL, CIFAR10.1, FMoW, ImageNetV2, ImageNet-R, ImageNet-A, ImageNet-Sketch)では、微調整は平均2%の精度IDで得られるが、線形プローブよりも7%低い精度のOODが得られる。
我々は、IDとOODの精度のこのトレードオフが単純な設定でも生じることを理論的に示す。
これは、微調整が頭部を学習する一方で、ニューラルネットワークの下位層が同時に変化し、事前訓練された特徴を歪ませるためである。
解析の結果,線形探究法と線形探究法の両方の利点を併せ持つ,線形探究法(LP-FT)の容易な2段階戦略が示唆された。
実証的には、LP-FTは上記のデータセット上で細調整と線形探索の両方に優れています(1%のID、10%のOODは完全な微調整よりも優れています)。
関連論文リスト
- Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。
トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T13:13:39Z) - Understanding Linear Probing then Fine-tuning Language Models from NTK Perspective [32.01426831450348]
2段階ファインチューニング (FT) 法, 線形探傷 (LP) 法, 次いでファインチューニング (LP-FT) 法は線形探傷法とFT単独法より優れている。
ニューラルネットワークカーネル(NTK)理論に基づく分類タスクにおけるLP-FTのトレーニングダイナミクスを解析する。
本研究は,細調整言語モデルにおけるLP-FTの有効性を示す。
論文 参考訳(メタデータ) (2024-05-27T01:31:40Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - Trainable Projected Gradient Method for Robust Fine-tuning [36.470333094917436]
本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するために,TPGM(Traiable Projected Gradient Method)を提案する。
これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。
TPGM は OOD 性能における既存の微調整手法よりも優れた性能を示し,ID 性能に適合することを示した。
論文 参考訳(メタデータ) (2023-03-19T17:30:44Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。