論文の概要: Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation
- arxiv url: http://arxiv.org/abs/2305.14327v1
- Date: Tue, 23 May 2023 17:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:36:36.896034
- Title: Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation
- Title(参考訳): dynosaur: 命令チューニングデータキュレーションのための動的成長パラダイム
- Authors: Da Yin, Xiao Liu, Fan Yin, Ming Zhong, Hritik Bansal, Jiawei Han,
Kai-Wei Chang
- Abstract要約: インストラクションチューニングデータキュレーションのための動的成長パラダイムであるDynosaurを提案する。
ダイノサウルスにはいくつかの利点がある: 1) 発生コストの低減(800Kの命令チューニングデータを生成するための12ドル未満)、2) 命令チューニングデータの良質な品質、3) 動的に成長する能力。
- 参考スコア(独自算出の注目度): 80.94990321119398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning has emerged to enhance the capabilities of large language
models (LLMs) in providing appropriate outputs based on input instructions.
However, existing methods for collecting instruction-tuning data suffer from
limitations in scalability and affordability. In this paper, we propose
Dynosaur, a dynamic growth paradigm for instruction-tuning data curation. Built
upon the metadata of existing NLP datasets, we generate multiple task
instructions applicable to various NLP datasets and determine the relevant data
fields for constructing instruction-tuning data with LLMs. Dynosaur offers
several advantages: 1) lower generation costs (less than $12 for generating
800K instruction-tuning data), 2) good quality of instruction-tuning data
(better performance than Alpaca and Instruction GPT-4 on Super-NI with
comparable data sizes), and 3) the ability to grow dynamically by incorporating
new datasets from Huggingface Datasets Platform. We further investigate
continual learning as an approach to learning with the ever-growing
instruction-tuning dataset. We demonstrate that replay methods not only help
mitigate forgetting issues but help generalize to unseen tasks better. As a
novel continual learning scenario for instruction tuning, selecting tasks based
on instruction representations can be an effective replaying strategy. Code and
data are released at \url{https://github.com/WadeYin9712/Dynosaur}.
- Abstract(参考訳): インストラクションチューニングは、入力命令に基づいた適切な出力を提供することで、大きな言語モデル(LLM)の機能を高めるために登場した。
しかし,既存の命令調整データ収集手法は,スケーラビリティや手頃さの限界に悩まされている。
本稿では,インストラクションチューニングデータキュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のNLPデータセットのメタデータに基づいて、さまざまなNLPデータセットに適用可能な複数のタスク命令を生成し、LLMを用いて命令チューニングデータを構築するための関連するデータフィールドを決定する。
ダイノサウルスにはいくつかの利点がある。
1) 生成コストの低減(800Kの命令チューニングデータを生成するための12ドル未満)
2) 命令チューニングデータの品質(Alpaca と Instruction GPT-4 の Super-NI におけるデータサイズに匹敵する性能)、
3) Huggingface Datasets Platformの新しいデータセットを組み込むことで、動的に成長することができる。
さらに,継続学習を教育訓練データセットを用いて学習するためのアプローチとして検討する。
我々は,リプレイ手法が問題を忘れないようにするだけでなく,未確認タスクの一般化に役立つことを実証した。
命令調整のための新しい連続学習シナリオとして、命令表現に基づくタスクの選択は効果的な再生戦略である。
コードとデータは \url{https://github.com/wadeyin9712/dynosaur} でリリースされる。
関連論文リスト
- Cookbook: A framework for improving LLM generative abilities via programmatic data generating templates [57.29125360837203]
Cookbookはランダムトークン上の単純なパターンからなるトレーニングデータを生成するフレームワークである。
クックブック生成したデータの微調整により,対応するタスクの性能を最大52.7の精度で向上できることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:29:40Z) - REInstruct: Building Instruction Data from Unlabeled Corpus [49.82314244648043]
本稿では,ラベルのないコーパスから命令データを自動的に構築するREInstructを提案する。
Llama-7bをREInstructから3kシードデータと32k合成データの組み合わせで訓練することにより、微細調整されたモデルがAlpacaEvalのリーダーボード上でテキストダヴィンチ003に対して65.41%の勝利率を達成する。
論文 参考訳(メタデータ) (2024-08-20T09:05:03Z) - MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。
提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文 参考訳(メタデータ) (2024-07-22T17:55:22Z) - GenQA: Generating Millions of Instructions from a Handful of Prompts [67.54980063851605]
ほとんどの公開命令微調整データセットは、業界モデルをトレーニングするために使用されるクローズドソースデータセットと比較して比較的小さい。
本研究では,1つのプロンプトから大規模命令データセットを生成する手法について検討する。
我々のデータセットは、知識集約型リーダーボードタスクと会話評価の両方で、WizardLMとUltrachatの両方に遭遇または超過します。
論文 参考訳(メタデータ) (2024-06-14T17:44:08Z) - Phased Instruction Fine-Tuning for Large Language Models [12.037895935630882]
Phased IFT(Phased Instruction Fine-Tuning)を提案する。
GPT-4を用いて命令の難易度を評価し、命令データを難易度の高いサブセットに分割し、これらのサブセット上でモデルを逐次訓練する。
アルパカデータを用いたLlama-2 7B/13B/70B、Llama3 8/70B、Mistral-7Bモデルによる実験では、フェーズドIFTは1オフIFTよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-06-01T04:25:26Z) - Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation [9.574486521686323]
Bonitoは、未注釈のテキストをタスク固有のトレーニングデータセットに変換する条件付きタスク生成のモデルである。
そこで,本研究では,自己教師付きベースライン上での事前学習モデルと指導モデルの平均性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2024-02-28T13:54:57Z) - LongForm: Effective Instruction Tuning with Reverse Instructions [74.14035528786997]
本稿では,逆命令によって生成されるLongForm-Cデータセットを紹介する。
逆命令を用いた人書きコーパスの例を LLM で生成する。
我々のモデルは、ストーリー/レシピ生成や長文質問応答といったタスクを指導することなく、10倍の言語モデルより優れています。
論文 参考訳(メタデータ) (2023-04-17T17:36:35Z) - How Many Data Samples is an Additional Instruction Worth? [20.66688303609522]
最近導入された命令パラダイムは、自然言語で新しいタスクを定義することによって、NLPリソースを活用する非専門家ユーザーに権限を与える。
この結果から,タスク間で平均200個のデータサンプルに付加的な命令を適用できることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T08:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。