論文の概要: Stronger Models are NOT Stronger Teachers for Instruction Tuning
- arxiv url: http://arxiv.org/abs/2411.07133v2
- Date: Tue, 12 Nov 2024 04:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:22:08.455314
- Title: Stronger Models are NOT Stronger Teachers for Instruction Tuning
- Title(参考訳): より強大なモデルでは教師の指導訓練が強化されない
- Authors: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Radha Poovendran,
- Abstract要約: より大きくより強いモデルが必ずしもより小さなモデルの教師であるとは限らないことを示す。
そこで我々は、応答生成器の有効性を測定するための新しいメトリクス、Compatibility-Adjusted Reward (CAR) を開発した。
- 参考スコア(独自算出の注目度): 12.87887398974395
- License:
- Abstract: Instruction tuning has been widely adopted to ensure large language models (LLMs) follow user instructions effectively. The resulting instruction-following capabilities of LLMs heavily rely on the instruction datasets used for tuning. Recently, synthetic instruction datasets have emerged as an economically viable solution to provide LLMs diverse and high-quality instructions. However, existing approaches typically assume that larger or stronger models are stronger teachers for instruction tuning, and hence simply adopt these models as response generators to the synthetic instructions. In this paper, we challenge this commonly-adopted assumption. Our extensive experiments across five base models and twenty response generators reveal that larger and stronger models are not necessarily stronger teachers of smaller models. We refer to this phenomenon as the Larger Models' Paradox. We observe that existing metrics cannot precisely predict the effectiveness of response generators since they ignore the compatibility between teachers and base models being fine-tuned. We thus develop a novel metric, named as Compatibility-Adjusted Reward (CAR) to measure the effectiveness of response generators. Our experiments across five base models demonstrate that CAR outperforms almost all baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)がユーザ命令を効果的に従えるようにするために、インストラクションチューニングが広く採用されている。
LLMの命令追従能力は、チューニングに使用される命令データセットに大きく依存している。
近年,LLMの多様かつ高品質な命令を提供するための,経済的に実現可能なソリューションとして,合成命令データセットが登場している。
しかし、既存のアプローチでは、より大きいモデルやより強いモデルが命令チューニングの教師であると考えられており、従ってこれらのモデルを合成命令に対する応答ジェネレータとして単純に採用する。
本稿では,この仮定に挑戦する。
5つのベースモデルと20のレスポンスジェネレータにまたがる広範な実験により、より大きく強力なモデルが必ずしもより小さなモデルの教師であるとは限らないことが判明した。
この現象を大模型のパラドックスと呼ぶ。
我々は,教師と基礎モデルの微調整を無視するため,既存のメトリクスが応答生成器の有効性を正確に予測できないことを観察した。
そこで我々は、応答生成器の有効性を測定するための新しいメトリクス、Compatibility-Adjusted Reward (CAR) を開発した。
5つのベースモデルに対する我々の実験は、CARがほぼすべてのベースラインより優れていることを示した。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - The Truth is in There: Improving Reasoning in Language Models with
Layer-Selective Rank Reduction [22.659005954676598]
重み行列の高次成分を選択的に除去することにより,大規模言語モデルの性能を大幅に向上させることができることを示す。
LAER(Layer-Selective Rank reduction)と呼ばれるこの単純な介入は、トレーニングが完了した後、モデル上で行うことができる。
言語モデルとデータセットにまたがって、この発見の汎用性を実証する広範な実験を示す。
論文 参考訳(メタデータ) (2023-12-21T03:51:08Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - Evaluating the Robustness to Instructions of Large Language Models [6.947956990248856]
微調整大型言語モデル(LLM)は、新しいタスクにおけるゼロショット能力を向上することができる。
Alpaca, Vicuna, WizardLM, 従来のタスク指向モデル(Flan-T5-XL/XXL, T0++)を含む6つのモデルを評価する。
異なるスケールのFLAN-T5モデルのRE命令に対するロバスト性は、QA命令に対するロバスト性よりも劣っていることがわかった。
論文 参考訳(メタデータ) (2023-08-28T04:57:07Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale
Instructions [28.937552799649808]
命令を微調整した大規模言語モデル(LLM)は、優れた生成能力を示す。
我々は既存の命令と新しく生成された命令の両方に基づいて258万の命令を大規模に開発する。
我々は、エンコーダデコーダとデコーダのみのファミリーの両方のモデルを含む、LaMini-LMと呼ばれる様々なモデルの群を微調整する。
論文 参考訳(メタデータ) (2023-04-27T17:58:49Z) - Large Language Models Are Reasoning Teachers [9.290757451344673]
ファインチューンCoTは、非常に大きな教師モデルからより小さなモデルへの推論サンプルを生成する方法である。
また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
論文 参考訳(メタデータ) (2022-12-20T08:24:45Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。