論文の概要: Why pre-training is beneficial for downstream classification tasks?
- arxiv url: http://arxiv.org/abs/2410.08455v1
- Date: Fri, 11 Oct 2024 02:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:16:22.893823
- Title: Why pre-training is beneficial for downstream classification tasks?
- Title(参考訳): なぜ事前学習が下流の分類作業にとって有益か?
- Authors: Xin Jiang, Xu Cheng, Zechao Li,
- Abstract要約: 本稿では,ゲーム理論の新たな視点から,事前学習が下流作業に与える影響を定量的かつ明示的に説明することを提案する。
具体的には,事前学習モデルにより符号化された知識を抽出し,定量化する。
我々は、下流タスクの推測のために、少数の事前訓練されたモデルの知識しか保存されていないことを発見した。
- 参考スコア(独自算出の注目度): 32.331679393303446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training has exhibited notable benefits to downstream tasks by boosting accuracy and speeding up convergence, but the exact reasons for these benefits still remain unclear. To this end, we propose to quantitatively and explicitly explain effects of pre-training on the downstream task from a novel game-theoretic view, which also sheds new light into the learning behavior of deep neural networks (DNNs). Specifically, we extract and quantify the knowledge encoded by the pre-trained model, and further track the changes of such knowledge during the fine-tuning process. Interestingly, we discover that only a small amount of pre-trained model's knowledge is preserved for the inference of downstream tasks. However, such preserved knowledge is very challenging for a model training from scratch to learn. Thus, with the help of this exclusively learned and useful knowledge, the model fine-tuned from pre-training usually achieves better performance than the model training from scratch. Besides, we discover that pre-training can guide the fine-tuned model to learn target knowledge for the downstream task more directly and quickly, which accounts for the faster convergence of the fine-tuned model.
- Abstract(参考訳): 事前学習は、精度を高め、収束を早めることによって下流タスクに顕著な利点を示したが、これらの利点の正確な理由は未だに不明である。
そこで本研究では,深層ニューラルネットワーク(DNN)の学習行動に新たな光を当てる新たなゲーム理論的視点から,下流タスクに対する事前学習の効果を定量的かつ明示的に説明することを提案する。
具体的には、事前学習されたモデルによって符号化された知識を抽出し、定量化し、さらに微調整過程における知識の変化を追跡する。
興味深いことに、下流タスクの推測のために、訓練済みのモデルの知識が少量しか保存されていないことが判明した。
しかし、そのような保存された知識は、スクラッチから学ぶためのモデルトレーニングにとって非常に難しい。
したがって、この学習と有用な知識の助けを借りて、事前トレーニングで微調整されたモデルは、スクラッチからトレーニングしたモデルよりもパフォーマンスが良くなります。
さらに、事前学習により、より直接的かつ迅速にダウンストリームタスクの目標知識を学習し、より高速な微調整モデルの収束を導出できることがわかった。
関連論文リスト
- Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Fine-tuning can cripple your foundation model; preserving features may be the solution [87.35911633187204]
タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。
我々は、下流タスクに関連する新しい概念を学習しながら、モデルが事前学習した知識を保存できる「textitLDIFS$」という新しい微調整手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T11:49:51Z) - Continual Learning with Pretrained Backbones by Tuning in the Input
Space [44.97953547553997]
ディープラーニングモデルを非定常環境に適用することの本質的な困難さは、ニューラルネットワークの実際のタスクへの適用性を制限している。
ネットワークの事前学習部分の更新を回避し、通常の分類ヘッドだけでなく、新たに導入した学習可能なパラメータのセットも学習することで、微調整手順をより効果的にするための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-06-05T15:11:59Z) - Informed Pre-Training on Prior Knowledge [6.666503127282259]
トレーニングデータが少ない場合には、追加の事前知識が組み込まれて学習プロセスを支援することができる。
本稿では,新しい情報機械学習手法を提案し,事前知識の事前学習を提案する。
論文 参考訳(メタデータ) (2022-05-23T16:24:40Z) - Pre-Train Your Loss: Easy Bayesian Transfer Learning with Informative
Priors [59.93972277761501]
我々は,教師付きあるいは自己指導型アプローチにより,ソースタスクから高い情報的後部を学習できることを実証した。
このシンプルなモジュラーアプローチは、様々な下流の分類とセグメンテーションタスクにおいて、大幅なパフォーマンス向上と、よりデータ効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2022-05-20T16:19:30Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - A study on the plasticity of neural networks [21.43675319928863]
連続学習における可塑性の喪失の意味について論じる。
そこで本研究では,データ分布と微調整したデータから事前学習したモデルが,新たな初期化モデルと同じ一般化に到達しないことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:21:06Z) - Adversarially-Trained Deep Nets Transfer Better: Illustration on Image
Classification [53.735029033681435]
トランスファーラーニングは、訓練済みのディープニューラルネットワークを画像認識タスクに新しいドメインに適用するための強力な方法論である。
本研究では,非逆学習モデルよりも逆学習モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-07-11T22:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。