Fugu-MT 論文翻訳(概要): Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs

論文の概要: Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs

arxiv url: http://arxiv.org/abs/2310.13961v1
Date: Sat, 21 Oct 2023 10:21:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 04:19:25.278382
Title: Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs
Title（参考訳）: エンサンブルインストラクション: LMの不均一混合を用いた命令チューニングデータの生成
Authors: Young-Suk Lee, Md Arafat Sultan, Yousef El-Kurdi, Tahira Naseem Asim Munawar, Radu Florian, Salim Roukos, Ram\'on Fernandez Astudillo
Abstract要約: In-context Learning (ICL)技術は、少数の人間の監督だけで強力な会話エージェントを訓練することができる。ここでは、より小さく(約10B-40Bパラメータ)、許容ライセンスを持つ言語モデルへのそのような手法の適用について検討する。我々は,これらのサイズでは効果が低いセルフインストラクト手法を考案し,2つの主要なアイデアに基づいて新たなICL手法を提案する。
参考スコア（独自算出の注目度）: 23.38507910115345
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Using in-context learning (ICL) for data generation, techniques such as Self-Instruct (Wang et al., 2023) or the follow-up Alpaca (Taori et al., 2023) can train strong conversational agents with only a small amount of human supervision. One limitation of these approaches is that they resort to very large language models (around 175B parameters) that are also proprietary and non-public. Here we explore the application of such techniques to language models that are much smaller (around 10B--40B parameters) and have permissive licenses. We find the Self-Instruct approach to be less effective at these sizes and propose new ICL methods that draw on two main ideas: (a) Categorization and simplification of the ICL templates to make prompt learning easier for the LM, and (b) Ensembling over multiple LM outputs to help select high-quality synthetic examples. Our algorithm leverages the 175 Self-Instruct seed tasks and employs separate pipelines for instructions that require an input and instructions that do not. Empirical investigations with different LMs show that: (1) Our proposed method yields higher-quality instruction tuning data than Self-Instruct, (2) It improves performances of both vanilla and instruction-tuned LMs by significant margins, and (3) Smaller instruction-tuned LMs generate more useful outputs than their larger un-tuned counterparts. Our codebase is available at https://github.com/IBM/ensemble-instruct.
Abstract（参考訳）: データ生成にICL(In-context Learning)を用いることで、セルフインストラクション(Wang et al., 2023)や、それに続くAlpaca(Taori et al., 2023)のようなテクニックは、人間の監督力の少ない強力な会話エージェントを訓練することができる。これらのアプローチの1つの制限は、プロプライエタリで非パブリックな非常に大きな言語モデル(約175Bパラメータ)に頼っていることである。ここでは、より小さく(約10B-40Bパラメータ)、許容ライセンスを持つ言語モデルへのそのような手法の適用について検討する。このようなサイズでは自己指示的アプローチは効果が低く,2つの主要なアイデアを浮き彫りにする新しいicl手法を提案する。 (a)ICLテンプレートの分類と単純化により、LMの迅速な学習が容易になる。 b)複数のLM出力を組立てて高品質な合成例を選択すること。アルゴリズムは175のSelf-Instructのシードタスクを利用し、入力を必要とする命令には別個のパイプラインを使用する。実験結果から,(1)提案手法は自己指示よりも高品質な命令調律データが得られる,(2)バニラ調と命令調律の両方の性能を有意なマージンで改善する,(3)より小さい命令調律のlmsはより大きな非調律の命令調律データよりも有用な出力を生成する,という結果が得られた。私たちのコードベースはhttps://github.com/ibm/ensemble-instructで利用可能です。

関連論文リスト

Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。 DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
Phased Instruction Fine-Tuning for Large Language Models [12.037895935630882]
Phased IFT(Phased Instruction Fine-Tuning)を提案する。 GPT-4を用いて命令の難易度を評価し、命令データを難易度の高いサブセットに分割し、これらのサブセット上でモデルを逐次訓練する。アルパカデータを用いたLlama-2 7B/13B/70B、Llama3 8/70B、Mistral-7Bモデルによる実験では、フェーズドIFTは1オフIFTよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-06-01T04:25:26Z)
Instruction Tuning With Loss Over Instructions [42.9106826952674]
インストラクション・モデリング(IM)は、出力部のみではなく、インストラクションとプロンプト部に損失関数を適用してLMを訓練する。多くのシナリオにおいて、IMはNLPタスクとオープン・エンド・ジェネレーション・ベンチマークの両方でのLM性能を効果的に改善できることを示す。注目すべきは、最も有利な場合、IMはAlpacaEval 1.0のモデルパフォーマンスを100%以上向上させることだ。
論文参考訳（メタデータ） (2024-05-23T10:12:03Z)
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文参考訳（メタデータ） (2024-04-04T12:46:37Z)
Instruction Distillation Makes Large Language Models Efficient Zero-shot Rankers [56.12593882838412]
本稿では,文書のランク付けのための新しい命令蒸留手法を提案する。まず、複雑な命令で効果的なペアワイズ手法を用いて文書をランク付けし、簡単な指示で教師の予測をポイントワイズ方式で抽出する。提案手法は,MonoT5のような既存の教師付きメソッドの性能を超越し,最先端のゼロショット手法と同等である。
論文参考訳（メタデータ） (2023-11-02T19:16:21Z)
BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing [10.698756010878688]
25,005の命令から大規模言語モデル(LLM)を作成する。命令は、80人のキュレートされた命令からランダムに3列のサンプルを引いたGPT-4言語モデルによって作成される。いくつかのBioNLPタスクにおいて、これらの命令調整LDMを評価し、質問応答(QA)、情報抽出(IE)、テキスト生成(GEN)の3つの主要なカテゴリに分類できる。
論文参考訳（メタデータ） (2023-10-30T19:38:50Z)
Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文参考訳（メタデータ） (2023-10-20T09:55:06Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
Preference-grounded Token-level Guidance for Language Model Fine-tuning [105.88789610320426]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。 LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文参考訳（メタデータ） (2023-06-01T07:00:07Z)
LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions [28.937552799649808]
命令を微調整した大規模言語モデル(LLM)は、優れた生成能力を示す。我々は既存の命令と新しく生成された命令の両方に基づいて258万の命令を大規模に開発する。我々は、エンコーダデコーダとデコーダのみのファミリーの両方のモデルを含む、LaMini-LMと呼ばれる様々なモデルの群を微調整する。
論文参考訳（メタデータ） (2023-04-27T17:58:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。