論文の概要: Fine-tuning can cripple your foundation model; preserving features may
be the solution
- arxiv url: http://arxiv.org/abs/2308.13320v2
- Date: Sun, 4 Feb 2024 19:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:31:26.770694
- Title: Fine-tuning can cripple your foundation model; preserving features may
be the solution
- Title(参考訳): 微調整は基盤モデルを損なう - 機能の保存が解決策になるかも知れない
- Authors: Jishnu Mukhoti, Yarin Gal, Philip H.S. Torr, Puneet K. Dokania
- Abstract要約: タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。
本稿では,モデルが事前学習した知識を保存できる「textitLDIFS$」というファインチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 95.43355875644302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained foundation models, due to their enormous capacity and exposure to
vast amounts of data during pre-training, are known to have learned plenty of
real-world concepts. An important step in making these pre-trained models
extremely effective on downstream tasks is to fine-tune them on related
datasets. While various fine-tuning methods have been devised and have been
shown to be highly effective, we observe that a fine-tuned model's ability to
recognize concepts on tasks $\textit{different}$ from the downstream one is
reduced significantly compared to its pre-trained counterpart. This is an
undesirable effect of fine-tuning as a substantial amount of resources was used
to learn these pre-trained concepts in the first place. We call this phenomenon
"concept forgetting" and via experiments show that most end-to-end fine-tuning
approaches suffer heavily from this side effect. To this end, we propose a
simple fix to this problem by designing a new fine-tuning method called
$\textit{LDIFS}$ (short for $\ell_2$ distance in feature space) that, while
learning new concepts related to the downstream task, allows a model to
preserve its pre-trained knowledge as well. Through extensive experiments on 10
fine-tuning tasks we show that LDIFS significantly reduces concept forgetting.
Additionally, we show that LDIFS is highly effective in performing continual
fine-tuning on a sequence of tasks as well, in comparison with both fine-tuning
as well as continual learning baselines.
- Abstract(参考訳): 事前トレーニングされた基礎モデルは、膨大な容量と事前トレーニング中に大量のデータにさらされるため、現実世界の概念を多く習得したことが知られている。
これらの事前トレーニングされたモデルを下流タスクで極めて効果的にするための重要なステップは、関連するデータセットでそれらを微調整することだ。
様々なファインチューニング手法が考案され、非常に効果的であることが示されているが、ダウンストリームから$\textit{different}$というタスクの概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下している。
これは、事前学習された概念を学習するためにかなりの量のリソースが使われたため、微調整の好ましくない効果である。
我々はこの現象を「概念の忘れ」と呼び、実験を通して、ほとんどのエンドツーエンドの微調整アプローチがこの副作用に大きく影響していることを示す。
そこで本研究では,下流タスクに関連する新しい概念を学習しながら,モデルが事前学習した知識を保存できるように,$\textit{LDIFS}$ (short for $\ell_2$ distance in feature space) というファインチューニング手法を設計することで,この問題に対する簡単な修正を提案する。
10個の微調整タスクに関する広範な実験を通して、LDIFSは概念の忘れを著しく減らすことを示した。
さらに,LDIFSは連続的な微調整や連続的な学習ベースラインと比較して,連続的な微調整を行う上で非常に有効であることを示す。
関連論文リスト
- LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different
Views [28.917597757230745]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - Fine-tuning Reinforcement Learning Models is Secretly a Forgetting
Mitigation Problem [23.056946834832015]
本研究は, 強化学習環境においてアクセントを付加した, 伝達不良の原因の1つを概念化したものである。
モデルは、微調整の初期段階に訪れない下流タスクの状態部分空間を劣化させる。
標準的な知識保持技術が問題を緩和し、事前訓練された能力を最大限に活用できることを示します。
論文 参考訳(メタデータ) (2024-02-05T10:30:47Z) - Initialization Matters for Adversarial Transfer Learning [65.58440557481316]
トランスファーラーニングにおけるプレトレイン・フィネチングのパラダイムの普及に伴い、下流タスクのロバスト性は重要な問題となっている。
直交線形探索により得られる重みで線形頭部を初期化する対向微調整のためのロバスト線形初期化(RoLI)を提案する。
5つの異なる画像分類データセットにおいて,RoLIの有効性を実証し,新しい最先端結果を得た。
論文 参考訳(メタデータ) (2023-12-10T00:51:05Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - EXPANSE: A Deep Continual / Progressive Learning System for Deep
Transfer Learning [1.1024591739346294]
現在のDTL技術は、破滅的な忘れジレンマまたは過度に偏った事前訓練モデルに悩まされている。
本稿では,これらの制約に対処する深層移動学習のための新しい連続的・進行的学習手法を提案する。
私たちは、人間の教育システムにインスパイアされたディープラーニングモデルをトレーニングする新しい方法を提供する。
論文 参考訳(メタデータ) (2022-05-19T03:54:58Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。