論文の概要: Fine-tuning can cripple your foundation model; preserving features may
be the solution
- arxiv url: http://arxiv.org/abs/2308.13320v1
- Date: Fri, 25 Aug 2023 11:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 14:09:56.500128
- Title: Fine-tuning can cripple your foundation model; preserving features may
be the solution
- Title(参考訳): 微調整は基盤モデルを損なう - 機能の保存が解決策になるかも知れない
- Authors: Jishnu Mukhoti, Yarin Gal, Philip H.S. Torr, Puneet K. Dokania
- Abstract要約: タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下することを示す。
ファインタニング時に元の基盤モデルの特徴を簡易に保存するLDIFSという手法を提案する。
LDIFSは,下流タスク性能に顕著な影響を及ぼすことなく,概念の忘れを著しく低減することを示す。
- 参考スコア(独自算出の注目度): 95.43355875644302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained foundation models, owing primarily to their enormous capacity and
exposure to vast amount of training data scraped from the internet, enjoy the
advantage of storing knowledge about plenty of real-world concepts. Such models
are typically fine-tuned on downstream datasets to produce remarkable
state-of-the-art performances. While various fine-tuning methods have been
devised and are shown to be highly effective, we observe that a fine-tuned
model's ability to recognize concepts on tasks $\textit{different}$ from the
downstream one is reduced significantly compared to its pre-trained
counterpart. This is clearly undesirable as a huge amount of time and money
went into learning those very concepts in the first place. We call this
undesirable phenomenon "concept forgetting" and via experiments show that most
end-to-end fine-tuning approaches suffer heavily from this side effect. To this
end, we also propose a rather simple fix to this problem by designing a method
called LDIFS (short for $\ell_2$ distance in feature space) that simply
preserves the features of the original foundation model during fine-tuning. We
show that LDIFS significantly reduces concept forgetting without having
noticeable impact on the downstream task performance.
- Abstract(参考訳): トレーニング済みの基礎モデルは、主に膨大な能力と、インターネットから取り除かれた膨大なトレーニングデータに曝されることから、現実世界のコンセプトに関する知識を蓄積する利点を享受する。
このようなモデルは通常、下流のデータセットで微調整され、素晴らしいパフォーマンスを生み出す。
様々な微調整法が考案され,非常に有効であることが示されているが,下流部から得られる$\textit{different}$の微調整モデルの概念認識能力は,事前訓練したモデルに比べて著しく低下している。
大量の時間とお金がそもそもこれらの概念を学ぶようになったため、これは明らかに望ましくないことです。
我々は、この望ましくない現象を「概念の忘れ」と呼び、実験を通して、ほとんどのエンドツーエンドの微調整アプローチが、この副作用に悩まされていることを示す。
そこで本稿では,LDIFS (short for $\ell_2$ distance in feature space) と呼ばれる手法を設計し,基礎モデルの特徴を微調整時に簡単に保存する手法を提案する。
LDIFSは,下流タスク性能に顕著な影響を与えずに,概念の忘れを著しく低減することを示す。
関連論文リスト
- LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different
Views [28.917597757230745]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - Fine-tuning Reinforcement Learning Models is Secretly a Forgetting
Mitigation Problem [23.056946834832015]
本研究は, 強化学習環境においてアクセントを付加した, 伝達不良の原因の1つを概念化したものである。
モデルは、微調整の初期段階に訪れない下流タスクの状態部分空間を劣化させる。
標準的な知識保持技術が問題を緩和し、事前訓練された能力を最大限に活用できることを示します。
論文 参考訳(メタデータ) (2024-02-05T10:30:47Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - EXPANSE: A Deep Continual / Progressive Learning System for Deep
Transfer Learning [1.1024591739346294]
現在のDTL技術は、破滅的な忘れジレンマまたは過度に偏った事前訓練モデルに悩まされている。
本稿では,これらの制約に対処する深層移動学習のための新しい連続的・進行的学習手法を提案する。
私たちは、人間の教育システムにインスパイアされたディープラーニングモデルをトレーニングする新しい方法を提供する。
論文 参考訳(メタデータ) (2022-05-19T03:54:58Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。