論文の概要: Fine-Tuning can Distort Pretrained Features and Underperform
Out-of-Distribution
- arxiv url: http://arxiv.org/abs/2202.10054v1
- Date: Mon, 21 Feb 2022 09:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 17:39:21.546738
- Title: Fine-Tuning can Distort Pretrained Features and Underperform
Out-of-Distribution
- Title(参考訳): ファインチューニングは事前訓練された特徴を歪曲し、分布の過小評価する
- Authors: Ananya Kumar, Aditi Raghunathan, Robbie Jones, Tengyu Ma, Percy Liang
- Abstract要約: 微調整は、事前訓練された特徴が良好で分布シフトが大きい場合、線形探索よりも精度が良くなる。
我々は,このIDとOODの精度のトレードオフが,簡単な設定でも生じることを理論的に示す。
解析の結果,線形探究の容易な2段階戦略は,線形探究と線形探究の両方の利点を併せ持つことが明らかとなった。
- 参考スコア(独自算出の注目度): 100.01469697743322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When transferring a pretrained model to a downstream task, two popular
methods are full fine-tuning (updating all the model parameters) and linear
probing (updating only the last linear layer -- the "head"). It is well known
that fine-tuning leads to better accuracy in-distribution (ID). However, in
this paper, we find that fine-tuning can achieve worse accuracy than linear
probing out-of-distribution (OOD) when the pretrained features are good and the
distribution shift is large. On 10 distribution shift datasets
(Breeds-Living17, Breeds-Entity30, DomainNet, CIFAR $\to$ STL, CIFAR10.1, FMoW,
ImageNetV2, ImageNet-R, ImageNet-A, ImageNet-Sketch), fine-tuning obtains on
average 2% higher accuracy ID but 7% lower accuracy OOD than linear probing. We
show theoretically that this tradeoff between ID and OOD accuracy arises even
in a simple setting: fine-tuning overparameterized two-layer linear networks.
We prove that the OOD error of fine-tuning is high when we initialize with a
fixed or random head -- this is because while fine-tuning learns the head, the
lower layers of the neural network change simultaneously and distort the
pretrained features. Our analysis suggests that the easy two-step strategy of
linear probing then full fine-tuning (LP-FT), sometimes used as a fine-tuning
heuristic, combines the benefits of both fine-tuning and linear probing.
Empirically, LP-FT outperforms both fine-tuning and linear probing on the above
datasets (1% better ID, 10% better OOD than full fine-tuning).
- Abstract(参考訳): 事前訓練されたモデルを下流タスクに転送する場合、2つの一般的なメソッドは完全な微調整(モデルパラメータの更新)と線形探索(最後の線形層である"ヘッド"を更新)である。
微調整によって精度が向上すること(id)が知られている。
しかし,本論文では,事前学習した特徴が良好で分布シフトが大きい場合に,線形分布分布(OOD)よりも微調整の方が精度が良いことを示す。
10の分散シフトデータセット(Breeds-Living17, Breeds-Entity30, DomainNet, CIFAR $\to$ STL, CIFAR10.1, FMoW, ImageNetV2, ImageNet-R, ImageNet-A, ImageNet-Sketch)では、微調整は平均2%の精度IDで得られるが、線形プローブよりも7%低い精度のOODが得られる。
我々は、IDとOODの精度のこのトレードオフが単純な設定でも生じることを理論的に示す。
これは、微調整が頭部を学習する一方で、ニューラルネットワークの下位層が同時に変化し、事前訓練された特徴を歪ませるためである。
解析の結果,線形探究法と線形探究法の両方の利点を併せ持つ,線形探究法(LP-FT)の容易な2段階戦略が示唆された。
実証的には、LP-FTは上記のデータセット上で細調整と線形探索の両方に優れています(1%のID、10%のOODは完全な微調整よりも優れています)。
関連論文リスト
- On the Convergence of Differentially-Private Fine-tuning: To Linearly
Probe or to Fully Fine-tune? [37.6189089828733]
差分プライベート(DP)機械学習パイプラインは通常、プライベートデータの非プライベート事前トレーニングと微調整という、2段階のプロセスを含む。
完全な微調整は、分散データであっても、必ずしも最良のテスト精度が得られるとは限らないことが観察されている。
本稿では,DPリニアプローブ(LP)とフル微調整(FT)のトレーニングダイナミクスを解析し,逐次微調整現象について考察する。
論文 参考訳(メタデータ) (2024-02-29T07:01:48Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - Neural Priming for Sample-Efficient Adaptation [92.14357804106787]
ニューラルプライミング(Neural Priming)は、大規模な事前学習されたモデルを分散シフトや下流タスクに適応させる手法である。
ニューラルプライミングは、LAION-2Bほどの大きさの事前訓練であっても、テスト時に行うことができる。
論文 参考訳(メタデータ) (2023-06-16T21:53:16Z) - Trainable Projected Gradient Method for Robust Fine-tuning [36.470333094917436]
本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するために,TPGM(Traiable Projected Gradient Method)を提案する。
これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。
TPGM は OOD 性能における既存の微調整手法よりも優れた性能を示し,ID 性能に適合することを示した。
論文 参考訳(メタデータ) (2023-03-19T17:30:44Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Agreement-on-the-Line: Predicting the Performance of Neural Networks
under Distribution Shift [18.760716606922482]
類似しているが驚くべき現象が、ニューラルネットワークの分類器のペア間の一致にも現れている。
我々の予測アルゴリズムは、ライン上の合意が保持されるシフトと、ライン上の正確性がない場合の両方において、従来の手法よりも優れています。
論文 参考訳(メタデータ) (2022-06-27T07:50:47Z) - Linearity Grafting: Relaxed Neuron Pruning Helps Certifiable Robustness [172.61581010141978]
証明可能な堅牢性は、安全クリティカルなシナリオでディープニューラルネットワーク(DNN)を採用する上で望ましい特性である。
線形性の適切なレベルを「グラフト」することで、神経細胞を戦略的に操作する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2022-06-15T22:42:29Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。