論文の概要: Surgical Fine-Tuning Improves Adaptation to Distribution Shifts
- arxiv url: http://arxiv.org/abs/2210.11466v1
- Date: Thu, 20 Oct 2022 17:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:47:19.523165
- Title: Surgical Fine-Tuning Improves Adaptation to Distribution Shifts
- Title(参考訳): 手術用ファインチューニングによる配電シフト適応の改善
- Authors: Yoonho Lee, Annie S. Chen, Fahim Tajwar, Ananya Kumar, Huaxiu Yao,
Percy Liang, Chelsea Finn
- Abstract要約: 分散シフト下での伝達学習の一般的なアプローチは、事前訓練されたモデルの最後の数層を微調整することである。
本稿は, 階層のサブセットを選択的に微調整する手法が, 一般的に用いられている微調整手法と一致し, 性能が良くないことを示す。
- 参考スコア(独自算出の注目度): 114.17184775397067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common approach to transfer learning under distribution shift is to
fine-tune the last few layers of a pre-trained model, preserving learned
features while also adapting to the new task. This paper shows that in such
settings, selectively fine-tuning a subset of layers (which we term surgical
fine-tuning) matches or outperforms commonly used fine-tuning approaches.
Moreover, the type of distribution shift influences which subset is more
effective to tune: for example, for image corruptions, fine-tuning only the
first few layers works best. We validate our findings systematically across
seven real-world data tasks spanning three types of distribution shifts.
Theoretically, we prove that for two-layer neural networks in an idealized
setting, first-layer tuning can outperform fine-tuning all layers. Intuitively,
fine-tuning more parameters on a small target dataset can cause information
learned during pre-training to be forgotten, and the relevant information
depends on the type of shift.
- Abstract(参考訳): 分散シフト下での伝達学習の一般的なアプローチは、トレーニング済みモデルの最後の数層を微調整し、学習した特徴を保存し、新しいタスクにも適応させることである。
そこで本研究では, 手術用微調整と呼ばれる) レイヤのサブセットを選択的に微調整する手法が, 一般的に用いられる微調整アプローチと一致するか, 比較可能であることを示す。
さらに、分散シフトのタイプは、どのサブセットをより効果的にチューニングするかに影響します。
3種類の分散シフトにまたがる7つの実世界のデータタスクにおいて,この知見を体系的に検証した。
理論的には、理想化された2層ニューラルネットワークでは、1層チューニングが全ての層を上回ることを証明する。
直感的には、小さなターゲットデータセットでより多くのパラメータを微調整することで、事前トレーニング中に学習した情報が忘れられ、関連する情報はシフトの種類に依存する。
関連論文リスト
- LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - Informative regularization for a multi-layer perceptron RR Lyrae
classifier under data shift [3.303002683812084]
本稿では,情報正規化とアドホックなトレーニング手法に基づくスケーラブルで容易に適応可能なアプローチを提案し,シフト問題を緩和する。
提案手法は,特徴量からの知識をニューラルネットワークに組み込むことで,基礎となるデータシフト問題を管理する。
論文 参考訳(メタデータ) (2023-03-12T02:49:19Z) - Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。
最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。
このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文 参考訳(メタデータ) (2023-03-02T17:32:11Z) - Less is More: Selective Layer Finetuning with SubTuning [26.43027780266698]
事前訓練されたモデルを微調整することは、ニューラルネットワークを新しいタスクで訓練するための標準的なアプローチとなり、高速な収束と性能の向上をもたらす。
本研究では、ネットワークのすべての重みを微調整する代わりに、慎重に選択された層のサブセットのみを訓練し、残りの重みを初期(事前の)値で凍結する、代替的な微調整法について検討する。
実験結果から,emphsubsetファインタニング(あるいはSubTuning)がモデルの完全ファインタニングに匹敵する精度を達成し,トレーニングデータが少ない場合のフルファインタニングの性能を超越することを示した。
論文 参考訳(メタデータ) (2023-02-13T13:38:46Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Improving Self-supervised Learning for Out-of-distribution Task via
Auxiliary Classifier [6.61825491400122]
我々は,OODタスクにおける回転予測(自己教師付き)精度と意味分類精度の強い関係を観察する。
マルチタスクネットワークにセマンティックな分類と回転予測と共に補助的な分類ヘッドを導入する。
提案手法は,上層部で意味分類と回転予測のパラメータを更新する2段階最適化問題である。
論文 参考訳(メタデータ) (2022-09-07T02:00:01Z) - Two-Stage Fine-Tuning: A Novel Strategy for Learning Class-Imbalanced
Data [11.66734752179563]
長い尾の分散データの分類は難しい問題である。
トレーニング済みのモデルを下流タスクに転送する場合、特に微調整では、テールクラスでの学習は困難である。
本稿では,2段階のファインチューニングを提案する。まず,事前訓練されたモデルの最終層をクラスバランスの再重み付け損失で微調整し,次に標準のファインチューニングを実行する。
論文 参考訳(メタデータ) (2022-07-22T03:39:51Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - Bi-tuning of Pre-trained Representations [79.58542780707441]
Bi-tuningは、教師付きと教師なしの両方の事前訓練された表現を下流タスクに微調整するための一般的な学習フレームワークである。
バイチューニングは、事前訓練された表現のバックボーンに2つのヘッドを統合することで、バニラファインチューニングを一般化する。
バイチューニングは、教師付きモデルと教師なしモデルの両方の微調整タスクを大きなマージンで達成する。
論文 参考訳(メタデータ) (2020-11-12T03:32:25Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。