Fugu-MT 論文翻訳(概要): Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning

論文の概要: Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning

arxiv url: http://arxiv.org/abs/2408.14774v1
Date: Tue, 27 Aug 2024 04:31:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 15:04:48.451023
Title: Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning
Title（参考訳）: Instruct-SkillMix: LLMインストラクションチューニングのための強力なパイプライン
Authors: Simran Kaur, Simon Park, Anirudh Goyal, Sanjeev Arora,
Abstract要約: Instruct-SkillMixは、多様な高品質なSFTデータを作成するための自動化アプローチである。 LLaMA-3-8B-BaseはAlpacaEval 2.0で42.76%の勝利率を達成した。 Instruct-SkillMixパイプラインは柔軟性があり、他の設定に適応できる。
参考スコア（独自算出の注目度）: 40.61149906522525
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Instruct-SkillMix, an automated approach for creating diverse, high quality SFT data. The Instruct-SkillMix pipeline involves two stages, each leveraging an existing powerful LLM: (1) Skill extraction: uses the LLM to extract core "skills" for instruction-following, either from existing datasets, or by directly prompting the model; (2) Data generation: uses the powerful LLM to generate (instruction, response) data that exhibit a randomly chosen pair of these skills. Here, the use of random skill combinations promotes diversity and difficulty. Vanilla SFT (i.e., no PPO, DPO, or RL methods) on data generated from Instruct-SkillMix leads to strong gains on instruction following benchmarks such as AlpacaEval 2.0, MT-Bench, and WildBench. With just $4$K examples, LLaMA-3-8B-Base achieves 42.76% length-controlled win rate on AlpacaEval 2.0. To our knowledge, this achieves state-of-the-art performance among all models that have only undergone SFT (no RL methods) and competes with proprietary models such as Claude 3 Opus and LLaMA-3.1-405B-Instruct. Ablation studies also suggest plausible reasons for why creating open instruction-tuning datasets via naive crowd-sourcing has proved difficult. Introducing low quality answers ("shirkers") in $20\%$ of Instruct-SkillMix examples causes performance to plummet, sometimes catastrophically. The Instruct-SkillMix pipeline is flexible and is adaptable to other settings.
Abstract（参考訳）: Instruct-SkillMixは、多種多様な高品質なSFTデータを作成するための自動化アプローチである。 Instruct-SkillMixパイプラインには2つのステージがあり、それぞれが既存の強力なLLMを利用する: 1)スキル抽出: LLMを使用して、既存のデータセットから、またはモデルを直接プロンプトすることで、命令追従のコア"スキル"を抽出する; (2)データ生成: 強力なLLMを使用して、ランダムに選択されたこれらのスキルのペアを示す(命令、応答)データを生成する。ここでは、ランダムなスキルの組み合わせは多様性と難易度を促進する。 Instruct-SkillMixから生成されたデータに対するVanilla SFT(つまり、PPO、DPO、RLメソッド)は、AlpacaEval 2.0、MT-Bench、WildBenchなどのベンチマークに続く命令に強い利益をもたらす。わずか4ドルのサンプルで、LLaMA-3-8B-BaseはAlpacaEval 2.0で42.76%の勝利率を達成した。我々の知る限り、これはSFT(RL法を使用せず、Claude 3 OpusやLLaMA-3.1-405B-Instructのようなプロプライエタリなモデルと競合する全てのモデルで最先端のパフォーマンスを実現する。アブレーション研究は、素直なクラウドソーシングによるオープンなインストラクションチューニングデータセットの作成が難しい理由を示唆している。 Instruct-SkillMixの例の20 %$で低品質の回答(シャーカー)を導入すると、パフォーマンスが低下し、時には壊滅的に低下する。 Instruct-SkillMixパイプラインは柔軟性があり、他の設定に適応できる。

関連論文リスト

Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources [36.525767435183845]
我々は,29M画像テキストペア上で効率よく事前学習された完全オープンソース2BパラメータであるOpen-Qwen2VLを紹介する。トレーニングは、Qwen2-VLの1.4Tマルチモーダル事前学習トークンの0.36%である5B充填マルチモーダルトークンにおいて、学術レベル8xA100-40Gで実施された。最後の命令調整されたOpen-Qwen2VLは、様々なマルチモーダルベンチマークで部分的にオープンなMLLM Qwen2-VL-2Bより優れている。
論文参考訳（メタデータ） (2025-04-01T09:54:00Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
InverseCoder: Self-improving Instruction-Tuned Code LLMs with Inverse-Instruct [43.7550233177368]
本稿では、微調整されたオープンソースモデルを用いて、追加データを生成して命令調整データセットを拡張できるかどうかを考察する。 Inverse-Instructは、微調整 LLM を用いて、独自のトレーニングデータセットからコード応答の追加命令を生成するデータ拡張手法である。
論文参考訳（メタデータ） (2024-07-08T08:00:05Z)
PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning [17.73193523921637]
大規模言語モデル(LLM)は、多様な自然言語処理(NLP)タスクにおいて顕著な能力を示している。 LLMは通常、制御された微調整(SFT)を行い、その後、下流のアプリケーションで使用できるように調整する。本稿では,PLMファインチューニングのための新しいPArallelトレーニングパラダイムであるPAFTを紹介する。
論文参考訳（メタデータ） (2024-06-25T20:11:37Z)
MAmmoTH2: Scaling Instructions from the Web [39.786198452175505]
そこで本研究では,学習前のWebコーパスから,1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。我々はMAmmoTH2モデルを構築し、推論ベンチマークの性能を大幅に向上させた。さらに、パブリックインストラクションチューニングデータセット上でMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、最先端のパフォーマンスが達成される。
論文参考訳（メタデータ） (2024-05-06T15:11:38Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)
Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning [38.29072578390376]
より長い応答に対する微調整は、命令微調整の作業においてデフォルトのベースラインであるべきであることを示す。いくつかのLLM(Llama-2-7B,Llama-2-13B,Mistral-7B-v0.1)とデータセット(Alpaca-52k,Evol-Instruct-70k)に対してこれを実証する。
論文参考訳（メタデータ） (2024-02-07T13:32:11Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
AlpaGasus: Training A Better Alpaca with Fewer Data [93.6949102689243]
低品質なデータを自動的に識別しフィルタリングする、シンプルで効果的なデータ選択戦略を提案する。 52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。 AlpaGasusは、複数のテストセットと制御された人間の評価において、オリジナルのAlpacaを著しく上回っている。
論文参考訳（メタデータ） (2023-07-17T17:59:40Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。