論文の概要: Ensemble-Instruct: Generating Instruction-Tuning Data with a
Heterogeneous Mixture of LMs
- arxiv url: http://arxiv.org/abs/2310.13961v1
- Date: Sat, 21 Oct 2023 10:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 04:19:25.278382
- Title: Ensemble-Instruct: Generating Instruction-Tuning Data with a
Heterogeneous Mixture of LMs
- Title(参考訳): エンサンブルインストラクション: LMの不均一混合を用いた命令チューニングデータの生成
- Authors: Young-Suk Lee, Md Arafat Sultan, Yousef El-Kurdi, Tahira Naseem Asim
Munawar, Radu Florian, Salim Roukos, Ram\'on Fernandez Astudillo
- Abstract要約: In-context Learning (ICL)技術は、少数の人間の監督だけで強力な会話エージェントを訓練することができる。
ここでは、より小さく(約10B-40Bパラメータ)、許容ライセンスを持つ言語モデルへのそのような手法の適用について検討する。
我々は,これらのサイズでは効果が低いセルフインストラクト手法を考案し,2つの主要なアイデアに基づいて新たなICL手法を提案する。
- 参考スコア(独自算出の注目度): 23.38507910115345
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Using in-context learning (ICL) for data generation, techniques such as
Self-Instruct (Wang et al., 2023) or the follow-up Alpaca (Taori et al., 2023)
can train strong conversational agents with only a small amount of human
supervision. One limitation of these approaches is that they resort to very
large language models (around 175B parameters) that are also proprietary and
non-public. Here we explore the application of such techniques to language
models that are much smaller (around 10B--40B parameters) and have permissive
licenses. We find the Self-Instruct approach to be less effective at these
sizes and propose new ICL methods that draw on two main ideas: (a)
Categorization and simplification of the ICL templates to make prompt learning
easier for the LM, and (b) Ensembling over multiple LM outputs to help select
high-quality synthetic examples. Our algorithm leverages the 175 Self-Instruct
seed tasks and employs separate pipelines for instructions that require an
input and instructions that do not. Empirical investigations with different LMs
show that: (1) Our proposed method yields higher-quality instruction tuning
data than Self-Instruct, (2) It improves performances of both vanilla and
instruction-tuned LMs by significant margins, and (3) Smaller instruction-tuned
LMs generate more useful outputs than their larger un-tuned counterparts. Our
codebase is available at https://github.com/IBM/ensemble-instruct.
- Abstract(参考訳): データ生成にICL(In-context Learning)を用いることで、セルフインストラクション(Wang et al., 2023)や、それに続くAlpaca(Taori et al., 2023)のようなテクニックは、人間の監督力の少ない強力な会話エージェントを訓練することができる。
これらのアプローチの1つの制限は、プロプライエタリで非パブリックな非常に大きな言語モデル(約175Bパラメータ)に頼っていることである。
ここでは、より小さく(約10B-40Bパラメータ)、許容ライセンスを持つ言語モデルへのそのような手法の適用について検討する。
このようなサイズでは自己指示的アプローチは効果が低く,2つの主要なアイデアを浮き彫りにする新しいicl手法を提案する。
(a)ICLテンプレートの分類と単純化により、LMの迅速な学習が容易になる。
b)複数のLM出力を組立てて高品質な合成例を選択すること。
アルゴリズムは175のSelf-Instructのシードタスクを利用し、入力を必要とする命令には別個のパイプラインを使用する。
実験結果から,(1)提案手法は自己指示よりも高品質な命令調律データが得られる,(2)バニラ調と命令調律の両方の性能を有意なマージンで改善する,(3)より小さい命令調律のlmsはより大きな非調律の命令調律データよりも有用な出力を生成する,という結果が得られた。
私たちのコードベースはhttps://github.com/ibm/ensemble-instructで利用可能です。
関連論文リスト
- Pre-training Small Base LMs with Fewer Tokens [63.81067268919042]
本研究では,既存の大規模基盤LMから始まる小ベース言語モデル(LM)を簡易に開発する手法の有効性について検討する。
簡単なレシピをInherituneと呼び、まず1Bトークンを使って1.5Bパラメータを持つ小さなベースLMを構築することを実証します。
GPT2-medium (355M) と GPT-2-large (770M) のいくつかの層を利用して訓練した小型LMは、スクラッチからトレーニングした場合に、より大きい層が失われることに効果的に対応できることを示した。
論文 参考訳(メタデータ) (2024-04-12T17:53:34Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - INSTRAUG: Automatic Instruction Augmentation for Multimodal Instruction
Fine-tuning [28.667060630303183]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - MoDS: Model-oriented Data Selection for Instruction Tuning [35.60124047070829]
本稿では,モデル指向データ選択 (MoDS) 手法を提案する。
実験結果から,提案手法で選択した4000組の命令ペアを微調整したモデルの方が,完全なオリジナルデータセットで微調整したモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-27T09:33:13Z) - Instruction Distillation Makes Large Language Models Efficient Zero-shot
Rankers [56.12593882838412]
本稿では,文書のランク付けのための新しい命令蒸留手法を提案する。
まず、複雑な命令で効果的なペアワイズ手法を用いて文書をランク付けし、簡単な指示で教師の予測をポイントワイズ方式で抽出する。
提案手法は,MonoT5のような既存の教師付きメソッドの性能を超越し,最先端のゼロショット手法と同等である。
論文 参考訳(メタデータ) (2023-11-02T19:16:21Z) - BioInstruct: Instruction Tuning of Large Language Models for Biomedical
Natural Language Processing [11.68762234849359]
25,005の命令から大規模言語モデル(LLM)を作成する。
命令は、80人のキュレートされた命令からランダムに3列のサンプルを引いたGPT-4言語モデルによって作成される。
いくつかのBioNLPタスクにおいて、これらの命令調整LDMを評価し、質問応答(QA)、情報抽出(IE)、テキスト生成(GEN)の3つの主要なカテゴリに分類できる。
論文 参考訳(メタデータ) (2023-10-30T19:38:50Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - Ada-Instruct: Adapting Instruction Generators for Complex Reasoning [17.07852413707166]
Ada-Instruct は,オープンソース LLM の微調整によって開発された適応型命令生成器である。
我々はAda-Instructの有効性を、コード補完、数学的推論、常識推論を含む様々なアプリケーションで実証的に検証した。
論文 参考訳(メタデータ) (2023-10-06T13:28:04Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Preference-grounded Token-level Guidance for Language Model Fine-tuning [105.88789610320426]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。
LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。
実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文 参考訳(メタデータ) (2023-06-01T07:00:07Z) - LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale
Instructions [28.937552799649808]
命令を微調整した大規模言語モデル(LLM)は、優れた生成能力を示す。
我々は既存の命令と新しく生成された命令の両方に基づいて258万の命令を大規模に開発する。
我々は、エンコーダデコーダとデコーダのみのファミリーの両方のモデルを含む、LaMini-LMと呼ばれる様々なモデルの群を微調整する。
論文 参考訳(メタデータ) (2023-04-27T17:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。