論文の概要: Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation
- arxiv url: http://arxiv.org/abs/2305.14327v2
- Date: Thu, 26 Oct 2023 05:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 01:58:54.133813
- Title: Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation
- Title(参考訳): dynosaur: 命令チューニングデータキュレーションのための動的成長パラダイム
- Authors: Da Yin, Xiao Liu, Fan Yin, Ming Zhong, Hritik Bansal, Jiawei Han,
Kai-Wei Chang
- Abstract要約: インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
- 参考スコア(独自算出の注目度): 92.2167864437497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning has emerged to enhance the capabilities of large language
models (LLMs) to comprehend instructions and generate appropriate responses.
Existing methods either manually annotate or employ LLM (e.g., GPT-series) to
generate data for instruction tuning. However, they often overlook associating
instructions with existing annotated datasets. In this paper, we propose
Dynosaur, a dynamic growth paradigm for the automatic curation of
instruction-tuning data. Based on the metadata of existing datasets, we use
LLMs to automatically construct instruction-tuning data by identifying relevant
data fields and generating appropriate instructions.
By leveraging the existing annotated datasets, Dynosaur offers several
advantages: 1) it reduces the API cost for generating instructions (e.g., it
costs less than $12 USD by calling GPT-3.5-turbo for generating 800K
instruction tuning samples; 2) it provides high-quality data for instruction
tuning (e.g., it performs better than Alpaca and Flan on Super-NI and Longform
with comparable data sizes); and 3) it supports the continuous improvement of
models by generating instruction-tuning data when a new annotated dataset
becomes available. We further investigate a continual learning scheme for
learning with the ever-growing instruction-tuning dataset, and demonstrate that
replaying tasks with diverse instruction embeddings not only helps mitigate
forgetting issues but generalizes to unseen tasks better.
Code and data are available at https://github.com/WadeYin9712/Dynosaur.
- Abstract(参考訳): インストラクションチューニングは、命令を理解し、適切な応答を生成する大きな言語モデル(LLM)の機能を強化するために登場した。
既存のメソッドは、手動でアノテートするか、LPM(例えばGPTシリーズ)を使用して、インストラクションチューニング用のデータを生成する。
しかし、既存の注釈付きデータセットに関連付けられた命令を見落としてしまうことが多い。
本稿では,インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存の注釈付きデータセットを活用することで、dynosaurにはいくつかの利点がある。
1) 命令を生成するためのapiコスト(例えば,800kの命令チューニングサンプルを生成するためにgpt-3.5-turboを呼び出すことによって,12usドル未満となる)を削減します。
2)命令チューニングのための高品質なデータを提供する(例えば、Super-NIやLongformでAlpacaやFlanよりもパフォーマンスが良い)。
3)新しい注釈付きデータセットが利用可能になると,命令チューニングデータを生成することで,モデルの継続的改善をサポートする。
さらに,学習の継続学習方式について検討し,多種多様な命令埋め込みによるタスクの再生が,問題を忘れないようにするだけでなく,目に見えないタスクをより良く一般化することを示す。
コードとデータはhttps://github.com/wadeyin9712/dynosaurで入手できる。
関連論文リスト
- Cookbook: A framework for improving LLM generative abilities via programmatic data generating templates [57.29125360837203]
Cookbookはランダムトークン上の単純なパターンからなるトレーニングデータを生成するフレームワークである。
クックブック生成したデータの微調整により,対応するタスクの性能を最大52.7の精度で向上できることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:29:40Z) - REInstruct: Building Instruction Data from Unlabeled Corpus [49.82314244648043]
本稿では,ラベルのないコーパスから命令データを自動的に構築するREInstructを提案する。
Llama-7bをREInstructから3kシードデータと32k合成データの組み合わせで訓練することにより、微細調整されたモデルがAlpacaEvalのリーダーボード上でテキストダヴィンチ003に対して65.41%の勝利率を達成する。
論文 参考訳(メタデータ) (2024-08-20T09:05:03Z) - MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。
提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文 参考訳(メタデータ) (2024-07-22T17:55:22Z) - GenQA: Generating Millions of Instructions from a Handful of Prompts [67.54980063851605]
ほとんどの公開命令微調整データセットは、業界モデルをトレーニングするために使用されるクローズドソースデータセットと比較して比較的小さい。
本研究では,1つのプロンプトから大規模命令データセットを生成する手法について検討する。
我々のデータセットは、知識集約型リーダーボードタスクと会話評価の両方で、WizardLMとUltrachatの両方に遭遇または超過します。
論文 参考訳(メタデータ) (2024-06-14T17:44:08Z) - Phased Instruction Fine-Tuning for Large Language Models [12.037895935630882]
Phased IFT(Phased Instruction Fine-Tuning)を提案する。
GPT-4を用いて命令の難易度を評価し、命令データを難易度の高いサブセットに分割し、これらのサブセット上でモデルを逐次訓練する。
アルパカデータを用いたLlama-2 7B/13B/70B、Llama3 8/70B、Mistral-7Bモデルによる実験では、フェーズドIFTは1オフIFTよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-06-01T04:25:26Z) - Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation [9.574486521686323]
Bonitoは、未注釈のテキストをタスク固有のトレーニングデータセットに変換する条件付きタスク生成のモデルである。
そこで,本研究では,自己教師付きベースライン上での事前学習モデルと指導モデルの平均性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2024-02-28T13:54:57Z) - LongForm: Effective Instruction Tuning with Reverse Instructions [74.14035528786997]
本稿では,逆命令によって生成されるLongForm-Cデータセットを紹介する。
逆命令を用いた人書きコーパスの例を LLM で生成する。
我々のモデルは、ストーリー/レシピ生成や長文質問応答といったタスクを指導することなく、10倍の言語モデルより優れています。
論文 参考訳(メタデータ) (2023-04-17T17:36:35Z) - How Many Data Samples is an Additional Instruction Worth? [20.66688303609522]
最近導入された命令パラダイムは、自然言語で新しいタスクを定義することによって、NLPリソースを活用する非専門家ユーザーに権限を与える。
この結果から,タスク間で平均200個のデータサンプルに付加的な命令を適用できることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T08:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。