Fugu-MT 論文翻訳(概要): Fine-tuning can cripple your foundation model; preserving features may be the solution

論文の概要: Fine-tuning can cripple your foundation model; preserving features may be the solution

arxiv url: http://arxiv.org/abs/2308.13320v2
Date: Sun, 4 Feb 2024 19:28:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 05:31:26.770694
Title: Fine-tuning can cripple your foundation model; preserving features may be the solution
Title（参考訳）: 微調整は基盤モデルを損なう - 機能の保存が解決策になるかも知れない
Authors: Jishnu Mukhoti, Yarin Gal, Philip H.S. Torr, Puneet K. Dokania
Abstract要約: タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。本稿では,モデルが事前学習した知識を保存できる「textitLDIFS$」というファインチューニング手法を提案する。
参考スコア（独自算出の注目度）: 95.43355875644302
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained foundation models, due to their enormous capacity and exposure to vast amounts of data during pre-training, are known to have learned plenty of real-world concepts. An important step in making these pre-trained models extremely effective on downstream tasks is to fine-tune them on related datasets. While various fine-tuning methods have been devised and have been shown to be highly effective, we observe that a fine-tuned model's ability to recognize concepts on tasks $\textit{different}$ from the downstream one is reduced significantly compared to its pre-trained counterpart. This is an undesirable effect of fine-tuning as a substantial amount of resources was used to learn these pre-trained concepts in the first place. We call this phenomenon "concept forgetting" and via experiments show that most end-to-end fine-tuning approaches suffer heavily from this side effect. To this end, we propose a simple fix to this problem by designing a new fine-tuning method called $\textit{LDIFS}$ (short for $\ell_2$ distance in feature space) that, while learning new concepts related to the downstream task, allows a model to preserve its pre-trained knowledge as well. Through extensive experiments on 10 fine-tuning tasks we show that LDIFS significantly reduces concept forgetting. Additionally, we show that LDIFS is highly effective in performing continual fine-tuning on a sequence of tasks as well, in comparison with both fine-tuning as well as continual learning baselines.
Abstract（参考訳）: 事前トレーニングされた基礎モデルは、膨大な容量と事前トレーニング中に大量のデータにさらされるため、現実世界の概念を多く習得したことが知られている。これらの事前トレーニングされたモデルを下流タスクで極めて効果的にするための重要なステップは、関連するデータセットでそれらを微調整することだ。様々なファインチューニング手法が考案され、非常に効果的であることが示されているが、ダウンストリームから$\textit{different}$というタスクの概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下している。これは、事前学習された概念を学習するためにかなりの量のリソースが使われたため、微調整の好ましくない効果である。我々はこの現象を「概念の忘れ」と呼び、実験を通して、ほとんどのエンドツーエンドの微調整アプローチがこの副作用に大きく影響していることを示す。そこで本研究では,下流タスクに関連する新しい概念を学習しながら,モデルが事前学習した知識を保存できるように,$\textit{LDIFS}$ (short for $\ell_2$ distance in feature space) というファインチューニング手法を設計することで,この問題に対する簡単な修正を提案する。 10個の微調整タスクに関する広範な実験を通して、LDIFSは概念の忘れを著しく減らすことを示した。さらに,LDIFSは連続的な微調整や連続的な学習ベースラインと比較して,連続的な微調整を行う上で非常に有効であることを示す。

関連論文リスト

Why pre-training is beneficial for downstream classification tasks? [32.331679393303446]
本稿では,ゲーム理論の新たな視点から,事前学習が下流作業に与える影響を定量的かつ明示的に説明することを提案する。具体的には,事前学習モデルにより符号化された知識を抽出し,定量化する。我々は、下流タスクの推測のために、少数の事前訓練されたモデルの知識しか保存されていないことを発見した。
論文参考訳（メタデータ） (2024-10-11T02:13:16Z)
Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文参考訳（メタデータ） (2024-07-11T18:01:58Z)
LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文参考訳（メタデータ） (2024-02-07T08:16:40Z)
Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem [12.185261182744377]
本研究は, 強化学習環境においてアクセントを付加した, 伝達不良の原因の1つを概念化したものである。モデルは、微調整の初期段階に訪れない下流タスクの状態部分空間を劣化させる。標準的な知識保持技術が問題を緩和し、事前訓練された能力を最大限に活用できることを示します。
論文参考訳（メタデータ） (2024-02-05T10:30:47Z)
An Emulator for Fine-Tuning Large Language Models using Small Language Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。 EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文参考訳（メタデータ） (2023-10-19T17:57:16Z)
Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文参考訳（メタデータ） (2023-06-26T17:53:05Z)
Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文参考訳（メタデータ） (2022-03-10T06:23:41Z)
An Empirical Investigation of the Role of Pre-training in Lifelong Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文参考訳（メタデータ） (2021-12-16T19:00:55Z)
ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。 ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文参考訳（メタデータ） (2021-10-11T14:45:00Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文参考訳（メタデータ） (2020-12-25T20:50:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。