論文の概要: Fine-tuning can cripple your foundation model; preserving features may
be the solution
- arxiv url: http://arxiv.org/abs/2308.13320v1
- Date: Fri, 25 Aug 2023 11:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 14:09:56.500128
- Title: Fine-tuning can cripple your foundation model; preserving features may
be the solution
- Title(参考訳): 微調整は基盤モデルを損なう - 機能の保存が解決策になるかも知れない
- Authors: Jishnu Mukhoti, Yarin Gal, Philip H.S. Torr, Puneet K. Dokania
- Abstract要約: タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下することを示す。
ファインタニング時に元の基盤モデルの特徴を簡易に保存するLDIFSという手法を提案する。
LDIFSは,下流タスク性能に顕著な影響を及ぼすことなく,概念の忘れを著しく低減することを示す。
- 参考スコア(独自算出の注目度): 95.43355875644302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained foundation models, owing primarily to their enormous capacity and
exposure to vast amount of training data scraped from the internet, enjoy the
advantage of storing knowledge about plenty of real-world concepts. Such models
are typically fine-tuned on downstream datasets to produce remarkable
state-of-the-art performances. While various fine-tuning methods have been
devised and are shown to be highly effective, we observe that a fine-tuned
model's ability to recognize concepts on tasks $\textit{different}$ from the
downstream one is reduced significantly compared to its pre-trained
counterpart. This is clearly undesirable as a huge amount of time and money
went into learning those very concepts in the first place. We call this
undesirable phenomenon "concept forgetting" and via experiments show that most
end-to-end fine-tuning approaches suffer heavily from this side effect. To this
end, we also propose a rather simple fix to this problem by designing a method
called LDIFS (short for $\ell_2$ distance in feature space) that simply
preserves the features of the original foundation model during fine-tuning. We
show that LDIFS significantly reduces concept forgetting without having
noticeable impact on the downstream task performance.
- Abstract(参考訳): トレーニング済みの基礎モデルは、主に膨大な能力と、インターネットから取り除かれた膨大なトレーニングデータに曝されることから、現実世界のコンセプトに関する知識を蓄積する利点を享受する。
このようなモデルは通常、下流のデータセットで微調整され、素晴らしいパフォーマンスを生み出す。
様々な微調整法が考案され,非常に有効であることが示されているが,下流部から得られる$\textit{different}$の微調整モデルの概念認識能力は,事前訓練したモデルに比べて著しく低下している。
大量の時間とお金がそもそもこれらの概念を学ぶようになったため、これは明らかに望ましくないことです。
我々は、この望ましくない現象を「概念の忘れ」と呼び、実験を通して、ほとんどのエンドツーエンドの微調整アプローチが、この副作用に悩まされていることを示す。
そこで本稿では,LDIFS (short for $\ell_2$ distance in feature space) と呼ばれる手法を設計し,基礎モデルの特徴を微調整時に簡単に保存する手法を提案する。
LDIFSは,下流タスク性能に顕著な影響を与えずに,概念の忘れを著しく低減することを示す。
関連論文リスト
- Why pre-training is beneficial for downstream classification tasks? [32.331679393303446]
本稿では,ゲーム理論の新たな視点から,事前学習が下流作業に与える影響を定量的かつ明示的に説明することを提案する。
具体的には,事前学習モデルにより符号化された知識を抽出し,定量化する。
我々は、下流タスクの推測のために、少数の事前訓練されたモデルの知識しか保存されていないことを発見した。
論文 参考訳(メタデータ) (2024-10-11T02:13:16Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。