論文の概要: Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning
- arxiv url: http://arxiv.org/abs/2408.14774v1
- Date: Tue, 27 Aug 2024 04:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 15:04:48.451023
- Title: Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning
- Title(参考訳): Instruct-SkillMix: LLMインストラクションチューニングのための強力なパイプライン
- Authors: Simran Kaur, Simon Park, Anirudh Goyal, Sanjeev Arora,
- Abstract要約: Instruct-SkillMixは、多様な高品質なSFTデータを作成するための自動化アプローチである。
LLaMA-3-8B-BaseはAlpacaEval 2.0で42.76%の勝利率を達成した。
Instruct-SkillMixパイプラインは柔軟性があり、他の設定に適応できる。
- 参考スコア(独自算出の注目度): 40.61149906522525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Instruct-SkillMix, an automated approach for creating diverse, high quality SFT data. The Instruct-SkillMix pipeline involves two stages, each leveraging an existing powerful LLM: (1) Skill extraction: uses the LLM to extract core "skills" for instruction-following, either from existing datasets, or by directly prompting the model; (2) Data generation: uses the powerful LLM to generate (instruction, response) data that exhibit a randomly chosen pair of these skills. Here, the use of random skill combinations promotes diversity and difficulty. Vanilla SFT (i.e., no PPO, DPO, or RL methods) on data generated from Instruct-SkillMix leads to strong gains on instruction following benchmarks such as AlpacaEval 2.0, MT-Bench, and WildBench. With just $4$K examples, LLaMA-3-8B-Base achieves 42.76% length-controlled win rate on AlpacaEval 2.0. To our knowledge, this achieves state-of-the-art performance among all models that have only undergone SFT (no RL methods) and competes with proprietary models such as Claude 3 Opus and LLaMA-3.1-405B-Instruct. Ablation studies also suggest plausible reasons for why creating open instruction-tuning datasets via naive crowd-sourcing has proved difficult. Introducing low quality answers ("shirkers") in $20\%$ of Instruct-SkillMix examples causes performance to plummet, sometimes catastrophically. The Instruct-SkillMix pipeline is flexible and is adaptable to other settings.
- Abstract(参考訳): Instruct-SkillMixは、多種多様な高品質なSFTデータを作成するための自動化アプローチである。
Instruct-SkillMixパイプラインには2つのステージがあり、それぞれが既存の強力なLLMを利用する: 1)スキル抽出: LLMを使用して、既存のデータセットから、またはモデルを直接プロンプトすることで、命令追従のコア"スキル"を抽出する; (2)データ生成: 強力なLLMを使用して、ランダムに選択されたこれらのスキルのペアを示す(命令、応答)データを生成する。
ここでは、ランダムなスキルの組み合わせは多様性と難易度を促進する。
Instruct-SkillMixから生成されたデータに対するVanilla SFT(つまり、PPO、DPO、RLメソッド)は、AlpacaEval 2.0、MT-Bench、WildBenchなどのベンチマークに続く命令に強い利益をもたらす。
わずか4ドルのサンプルで、LLaMA-3-8B-BaseはAlpacaEval 2.0で42.76%の勝利率を達成した。
我々の知る限り、これはSFT(RL法を使用せず、Claude 3 OpusやLLaMA-3.1-405B-Instructのようなプロプライエタリなモデルと競合する全てのモデルで最先端のパフォーマンスを実現する。
アブレーション研究は、素直なクラウドソーシングによるオープンなインストラクションチューニングデータセットの作成が難しい理由を示唆している。
Instruct-SkillMixの例の20 %$で低品質の回答(シャーカー)を導入すると、パフォーマンスが低下し、時には壊滅的に低下する。
Instruct-SkillMixパイプラインは柔軟性があり、他の設定に適応できる。
関連論文リスト
- Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning [17.73193523921637]
大規模言語モデル(LLM)は、多様な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
LLMは通常、制御された微調整(SFT)を行い、その後、下流のアプリケーションで使用できるように調整する。
本稿では,PLMファインチューニングのための新しいPArallelトレーニングパラダイムであるPAFTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T20:11:37Z) - MAmmoTH2: Scaling Instructions from the Web [39.786198452175505]
そこで本研究では,学習前のWebコーパスから,1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。
我々はMAmmoTH2モデルを構築し、推論ベンチマークの性能を大幅に向上させた。
さらに、パブリックインストラクションチューニングデータセット上でMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2024-05-06T15:11:38Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。