論文の概要: An Emulator for Fine-Tuning Large Language Models using Small Language
Models
- arxiv url: http://arxiv.org/abs/2310.12962v1
- Date: Thu, 19 Oct 2023 17:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 13:45:23.600452
- Title: An Emulator for Fine-Tuning Large Language Models using Small Language
Models
- Title(参考訳): 小言語モデルを用いた大規模言語モデルの微調整エミュレータ
- Authors: Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn,
Christopher D. Manning
- Abstract要約: 本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
- 参考スコア(独自算出の注目度): 91.02498576056057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Widely used language models (LMs) are typically built by scaling up a
two-stage training pipeline: a pre-training stage that uses a very large,
diverse dataset of text and a fine-tuning (sometimes, 'alignment') stage that
uses targeted examples or other specifications of desired behaviors. While it
has been hypothesized that knowledge and skills come from pre-training, and
fine-tuning mostly filters this knowledge and skillset, this intuition has not
been extensively tested. To aid in doing so, we introduce a novel technique for
decoupling the knowledge and skills gained in these two stages, enabling a
direct answer to the question, "What would happen if we combined the knowledge
learned by a large model during pre-training with the knowledge learned by a
small model during fine-tuning (or vice versa)?" Using an RL-based framework
derived from recent developments in learning from human preferences, we
introduce emulated fine-tuning (EFT), a principled and practical method for
sampling from a distribution that approximates (or 'emulates') the result of
pre-training and fine-tuning at different scales. Our experiments with EFT show
that scaling up fine-tuning tends to improve helpfulness, while scaling up
pre-training tends to improve factuality. Beyond decoupling scale, we show that
EFT enables test-time adjustment of competing behavioral traits like
helpfulness and harmlessness without additional training. Finally, a special
case of emulated fine-tuning, which we call LM up-scaling, avoids
resource-intensive fine-tuning of large pre-trained models by ensembling them
with small fine-tuned models, essentially emulating the result of fine-tuning
the large pre-trained model. Up-scaling consistently improves helpfulness and
factuality of instruction-following models in the Llama, Llama-2, and Falcon
families, without additional hyperparameters or training.
- Abstract(参考訳): 広く使われている言語モデル(lms)は、通常、2段階のトレーニングパイプラインをスケールアップすることで構築される。テキストの非常に大きく多様なデータセットを使用する事前トレーニングステージと、望ましい振る舞いのターゲット例やその他の仕様を使用する微調整ステージ(時には'alignment')である。
知識とスキルは事前トレーニングによるものと仮定され、微調整は知識とスキルセットをほとんど阻害するが、この直観は広くテストされていない。
そこで我々は,この2つの段階において得られた知識とスキルを疎結合化するための新しい手法を導入し,「大型モデルが事前学習中に学んだ知識と小型モデルが習得した知識(あるいはその逆)を組み合せたらどうなるか?」という疑問への直接的な回答を可能にした。
人間の嗜好から学ぶことの最近の進歩から生まれたRLベースのフレームワークを用いて、異なるスケールでの事前学習と微調整の結果を近似(または「エミュレート」)する分布からサンプリングするエミュレートファインチューニング(EFT)を原則的かつ実践的に導入する。
EFTを用いた実験では、微調整のスケールアップは有用性を改善する傾向を示し、事前学習のスケールアップは事実性を改善する傾向を示した。
スケールをデカップリングする以外に、EDTは追加のトレーニングなしで、助け合いや無害といった競合する行動特性をテストタイムで調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートファインチューニングの特殊な場合において、大規模事前学習モデルの微調整の結果をエミュレートすることで、大規模事前学習モデルの資源集約的な微調整を回避する。
アップスケーリングは、追加のハイパーパラメータやトレーニングなしで、llama、llama-2、falconファミリの命令追従モデルの有用性と事実性を一貫して改善する。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Revisiting the Superficial Alignment Hypothesis [0.9831489366502302]
表面アライメント仮説(英語版)は、言語モデルの能力と知識のほとんど全てが事前訓練中に学習されていることを示唆している。
我々はこれらの主張を再検討し、微調整例の増加とともにポストトレーニングのスケーリング行動を研究する。
論文 参考訳(メタデータ) (2024-09-27T22:14:10Z) - Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models [17.288865972774587]
本研究では,複数の中間学習モデルチェックポイントの微調整による事前学習と微調整の関係について検討する。
18のデータセットで得られた結果は、事前学習が微調整後に発表される潜在的な方法でモデルを改善することを示唆している。
論文 参考訳(メタデータ) (2024-08-13T06:28:43Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-06-01T00:32:59Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based
Masked Language-models [51.53936551681613]
我々は、事前訓練されたBERTモデルのバイアス項(またはバイアス項のサブセット)のみを微調整することは、モデル全体を微調整する(そして、時にはそれよりも優れている)ことを示す。
彼らは、ファインタニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングの訓練によって引き起こされる知識を明らかにすることであるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-18T16:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。