論文の概要: FTFT: efficient and robust Fine-Tuning by transFerring Training dynamics
- arxiv url: http://arxiv.org/abs/2310.06588v1
- Date: Tue, 10 Oct 2023 12:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 15:26:23.510085
- Title: FTFT: efficient and robust Fine-Tuning by transFerring Training dynamics
- Title(参考訳): FTFT:TransFerringトレーニングダイナミクスによる効率的で堅牢な微調整
- Authors: Yupei Du, Albert Gatt, Dong Nguyen
- Abstract要約: DM法に基づく新しいファインチューニング手法:TransFerring Training dynamics (FTFT)によるファインチューニングを提案する。
DMと比較すると、FTFTはより効率的な参照モデルを使用し、より少ないステップでより優れたメインモデルを微調整する。
実験の結果,FTFTはトレーニングコストの半分以下を消費しながら,ロバスト性よりも優れた一般化を実現していることがわかった。
- 参考スコア(独自算出の注目度): 8.524469044005988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the massive success of fine-tuning large Pre-trained Language Models
(PLMs) on a wide range of Natural Language Processing (NLP) tasks, they remain
susceptible to out-of-distribution (OOD) and adversarial inputs. Data map (DM)
is a simple yet effective dual-model approach that enhances the robustness of
fine-tuned PLMs, which involves fine-tuning a model on the original training
set (i.e. reference model), selecting a specified fraction of important
training examples according to the training dynamics of the reference model,
and fine-tuning the same model on these selected examples (i.e. main model).
However, it suffers from the drawback of requiring fine-tuning the same model
twice, which is computationally expensive for large models. In this paper, we
first show that 1) training dynamics are highly transferable across different
model sizes and different pre-training methods, and that 2) main models
fine-tuned using DM learn faster than when using conventional Empirical Risk
Minimization (ERM). Building on these observations, we propose a novel
fine-tuning approach based on the DM method: Fine-Tuning by transFerring
Training dynamics (FTFT). Compared with DM, FTFT uses more efficient reference
models and then fine-tunes more capable main models for fewer steps. Our
experiments show that FTFT achieves better generalization robustness than ERM
while spending less than half of the training cost.
- Abstract(参考訳): 広範囲の自然言語処理(nlp)タスクで、事前学習された大規模言語モデル(plm)を微調整することで大きな成功を収めたにもかかわらず、それらは分散(ood)と逆のインプットに影響を受けやすいままである。
データマップ(dm)は、元のトレーニングセット(すなわち参照モデル)上でモデルを微調整し、参照モデルのトレーニングダイナミクスに従って重要なトレーニング例の特定部分を選択し、選択した例(メインモデル)で同じモデルを微調整することを含む、微調整されたplmの堅牢性を高める、単純かつ効果的なデュアルモデルアプローチである。
しかし、同じモデルを2回微調整する必要があるという欠点があり、これは大きなモデルには計算コストがかかる。
本稿ではまず,そのことを述べる。
1) トレーニングダイナミクスは, 異なるモデルサイズ, 異なる事前学習方法において高い移動性を有する。
2)従来の経験的リスク最小化(Empirical Risk Minimization,ERM)に比べて,DMを用いて微調整したモデルの方が学習が早い。
これらの観測結果に基づいて, DM法に基づく新しい微調整手法, TransFerring Training dynamics (FTFT) を提案する。
DMと比較すると、FTFTはより効率的な参照モデルを使用し、より少ないステップでより優れたメインモデルを微調整する。
実験の結果,ftftはermよりも一般化の堅牢性が向上し,トレーニングコストの半分以下を要した。
関連論文リスト
- Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Transferring Knowledge from Large Foundation Models to Small Downstream Models [40.38657103236168]
事前訓練されたモデル間で知識を伝達するための適応的特徴伝達(AFT)を導入する。
AFTは純粋に機能で動作し、より小さな下流モデルから事前訓練されたモデルの選択を分離する。
AFTは、同様の計算コストの代替よりも、ダウンストリーム性能が大幅に向上する。
論文 参考訳(メタデータ) (2024-06-11T15:06:15Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。