論文の概要: Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning
- arxiv url: http://arxiv.org/abs/2408.14774v4
- Date: Wed, 28 May 2025 19:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:32.506743
- Title: Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning
- Title(参考訳): Instruct-SkillMix: LLMインストラクションチューニングのための強力なパイプライン
- Authors: Simran Kaur, Simon Park, Anirudh Goyal, Sanjeev Arora,
- Abstract要約: Instruct-SkillMixは、命令追従のための多種多様な高品質なSFTデータを作成するための自動化アプローチである。
わずか4Kの例で、LLaMA-3-8B-BaseはAlpacaEval 2.0で42.76%の勝利率を達成した。
- 参考スコア(独自算出の注目度): 40.61149906522525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Instruct-SkillMix, an automated approach for creating diverse, high quality SFT data for instruction-following. The pipeline involves two stages, each leveraging an existing powerful LLM: (1) Skill extraction: uses the LLM to extract core "skills" for instruction-following by directly prompting the model. This is inspired by ``LLM metacognition'' of Didolkar et al. (2024); (2) Data generation: uses the powerful LLM to generate (instruction, response) data that exhibit a randomly chosen pair of these skills. Here, the use of random skill combinations promotes diversity and difficulty. The estimated cost of creating the dataset is under $600. Vanilla SFT (i.e., no PPO, DPO, or RL methods) on data generated from Instruct-SkillMix leads to strong gains on instruction following benchmarks such as AlpacaEval 2.0, MT-Bench, and WildBench. With just 4K examples, LLaMA-3-8B-Base achieves 42.76% length-controlled win rate on AlpacaEval 2.0, a level similar to frontier models like Claude 3 Opus and LLaMA-3.1-405B-Instruct. Ablation studies also suggest plausible reasons for why creating open instruction-tuning datasets via naive crowd-sourcing has proved difficult. In our dataset, adding 20% low quality answers (``shirkers'') causes a noticeable degradation in performance. The Instruct-SkillMix pipeline seems flexible and adaptable to other settings.
- Abstract(参考訳): Instruct-SkillMixは命令追従のための多種多様な高品質なSFTデータを作成するための自動化手法である。
1) スキル抽出: LLMを使用して、モデルを直接プロンプトすることで、コア"スキル"を抽出する。
これはDidolkar et al (2024)の ‘LLM metacognition' にインスパイアされたもので、(2)データ生成は強力なLCMを使用して、ランダムに選択されたこれらのスキルのペアを示す(指示、応答)データを生成する。
ここでは、ランダムなスキルの組み合わせは多様性と難易度を促進する。
データセットを作成するコストは600ドル以下と見積もられている。
Instruct-SkillMixから生成されたデータに対するVanilla SFT(つまり、PPO、DPO、RLメソッド)は、AlpacaEval 2.0、MT-Bench、WildBenchなどのベンチマークに続く命令に強い利益をもたらす。
わずか4Kの例で、LLaMA-3-8B-BaseはAlpacaEval 2.0で42.76%の勝利率を達成し、これはClaude 3 OpusやLLaMA-3.1-405B-Instructのようなフロンティアモデルと類似している。
アブレーション研究は、素直なクラウドソーシングによるオープンなインストラクションチューニングデータセットの作成が難しい理由を示唆している。
私たちのデータセットでは、20%低い品質の回答(``shirkers'')を追加すると、パフォーマンスが著しく低下します。
Instruct-SkillMixパイプラインは柔軟性があり、他の設定にも適応できる。
関連論文リスト
- Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources [36.525767435183845]
我々は,29M画像テキストペア上で効率よく事前学習された完全オープンソース2BパラメータであるOpen-Qwen2VLを紹介する。
トレーニングは、Qwen2-VLの1.4Tマルチモーダル事前学習トークンの0.36%である5B充填マルチモーダルトークンにおいて、学術レベル8xA100-40Gで実施された。
最後の命令調整されたOpen-Qwen2VLは、様々なマルチモーダルベンチマークで部分的にオープンなMLLM Qwen2-VL-2Bより優れている。
論文 参考訳(メタデータ) (2025-04-01T09:54:00Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning [17.73193523921637]
大規模言語モデル(LLM)は、多様な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
LLMは通常、制御された微調整(SFT)を行い、その後、下流のアプリケーションで使用できるように調整する。
本稿では,PLMファインチューニングのための新しいPArallelトレーニングパラダイムであるPAFTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T20:11:37Z) - MAmmoTH2: Scaling Instructions from the Web [39.786198452175505]
そこで本研究では,学習前のWebコーパスから,1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。
我々はMAmmoTH2モデルを構築し、推論ベンチマークの性能を大幅に向上させた。
さらに、パブリックインストラクションチューニングデータセット上でMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2024-05-06T15:11:38Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。