論文の概要: Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation
- arxiv url: http://arxiv.org/abs/2305.14327v2
- Date: Thu, 26 Oct 2023 05:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 01:58:54.133813
- Title: Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation
- Title(参考訳): dynosaur: 命令チューニングデータキュレーションのための動的成長パラダイム
- Authors: Da Yin, Xiao Liu, Fan Yin, Ming Zhong, Hritik Bansal, Jiawei Han,
Kai-Wei Chang
- Abstract要約: インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
- 参考スコア(独自算出の注目度): 92.2167864437497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning has emerged to enhance the capabilities of large language
models (LLMs) to comprehend instructions and generate appropriate responses.
Existing methods either manually annotate or employ LLM (e.g., GPT-series) to
generate data for instruction tuning. However, they often overlook associating
instructions with existing annotated datasets. In this paper, we propose
Dynosaur, a dynamic growth paradigm for the automatic curation of
instruction-tuning data. Based on the metadata of existing datasets, we use
LLMs to automatically construct instruction-tuning data by identifying relevant
data fields and generating appropriate instructions.
By leveraging the existing annotated datasets, Dynosaur offers several
advantages: 1) it reduces the API cost for generating instructions (e.g., it
costs less than $12 USD by calling GPT-3.5-turbo for generating 800K
instruction tuning samples; 2) it provides high-quality data for instruction
tuning (e.g., it performs better than Alpaca and Flan on Super-NI and Longform
with comparable data sizes); and 3) it supports the continuous improvement of
models by generating instruction-tuning data when a new annotated dataset
becomes available. We further investigate a continual learning scheme for
learning with the ever-growing instruction-tuning dataset, and demonstrate that
replaying tasks with diverse instruction embeddings not only helps mitigate
forgetting issues but generalizes to unseen tasks better.
Code and data are available at https://github.com/WadeYin9712/Dynosaur.
- Abstract(参考訳): インストラクションチューニングは、命令を理解し、適切な応答を生成する大きな言語モデル(LLM)の機能を強化するために登場した。
既存のメソッドは、手動でアノテートするか、LPM(例えばGPTシリーズ)を使用して、インストラクションチューニング用のデータを生成する。
しかし、既存の注釈付きデータセットに関連付けられた命令を見落としてしまうことが多い。
本稿では,インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存の注釈付きデータセットを活用することで、dynosaurにはいくつかの利点がある。
1) 命令を生成するためのapiコスト(例えば,800kの命令チューニングサンプルを生成するためにgpt-3.5-turboを呼び出すことによって,12usドル未満となる)を削減します。
2)命令チューニングのための高品質なデータを提供する(例えば、Super-NIやLongformでAlpacaやFlanよりもパフォーマンスが良い)。
3)新しい注釈付きデータセットが利用可能になると,命令チューニングデータを生成することで,モデルの継続的改善をサポートする。
さらに,学習の継続学習方式について検討し,多種多様な命令埋め込みによるタスクの再生が,問題を忘れないようにするだけでなく,目に見えないタスクをより良く一般化することを示す。
コードとデータはhttps://github.com/wadeyin9712/dynosaurで入手できる。
関連論文リスト
- Learning to Generate Instruction Tuning Datasets for Zero-Shot Task
Adaptation [10.459438698520348]
Bonitoは、注釈のないテキストをタスク固有のトレーニングデータセットに変換して、インストラクションチューニングを行うモデルである。
既存のインストラクションチューニングデータセットをメタテンプレートにリミックスして作成した1.65万のサンプルを備えた,新たな大規模データセットでBonitoをトレーニングする。
そこで,本研究では,自己教師付きベースライン上での事前学習モデルと指導モデルの平均性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2024-02-28T13:54:57Z) - INSTRAUG: Automatic Instruction Augmentation for Multimodal Instruction
Fine-tuning [28.667060630303183]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - Selective Reflection-Tuning: Student-Selected Data Recycling for LLM
Instruction-Tuning [42.10827309631878]
本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善するパラダイムであるSelective Reflection-Tuningを紹介する。
この教師と学生のコラボレーションは、高品質で学生互換の授業-レスポンスペアを生産する。
本手法をAlpaca と WizardLM のデータに適用し,より強力で最上位の 7B と 13B の LLM を実現する。
論文 参考訳(メタデータ) (2024-02-15T17:06:21Z) - WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with
Refined Data Generation [23.41247482299201]
4つの普遍的なコード関連タスクにまたがる2万の命令インスタンスからなるデータセットであるCodeOceanを紹介する。
次に、WidespreadとVersatile拡張命令チューニングを備えた微調整コードLLMであるWavecoderを紹介する。
論文 参考訳(メタデータ) (2023-12-20T09:02:29Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data
Generator [71.66233345255701]
Genixerは、高品質なマルチモーダルチューニングチューニングデータを生成する革新的なデータ生成パイプラインである。
10の一般的なマルチモーダルタスクのデータセットをインストラクションチューニングデータに変換する。
その後、訓練済みのMLLMを訓練し、タスク固有の命令データを生成する。
実験により、Genixerのフィルタリングされたデータは画像キャプションやVQAタスクのカカポを継続的に改善することが示された。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Exploring Format Consistency for Instruction Tuning [79.0698403613366]
本研究では,Unified Instruction Tuning (UIT) というフレームワークを提案する。
UITはOpenAI APIを呼び出し、PromptSource、FLAN、CrossFitといったさまざまなインストラクションチューニングデータセット間で自動フォーマット転送を行う。
提案手法では,T5-LM-xlにおける未知命令の一般化性能の向上と,自動フォーマット転送のノイズを低減するために,新しいパープレキシティに基づくデノナイジング手法を提案する。
論文 参考訳(メタデータ) (2023-07-28T12:00:13Z) - Thinking Like an Annotator: Generation of Dataset Labeling Instructions [59.603239753484345]
本稿では、公開されていないラベリング命令に対処するため、新しいタスクであるラベリング命令生成を導入する。
1)データセット内のカテゴリ毎に視覚的に代表されるサンプルのセットを生成し,2)サンプルに対応するテキストラベルを提供する。
このフレームワークは人間のアノテーションのプロキシとして機能し、最終的なラベル付け命令セットを生成し、その品質を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-06-24T18:32:48Z) - Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:59:19Z) - How Many Data Samples is an Additional Instruction Worth? [20.66688303609522]
最近導入された命令パラダイムは、自然言語で新しいタスクを定義することによって、NLPリソースを活用する非専門家ユーザーに権限を与える。
この結果から,タスク間で平均200個のデータサンプルに付加的な命令を適用できることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T08:30:30Z) - CycleGT: Unsupervised Graph-to-Text and Text-to-Graph Generation via
Cycle Training [63.11444020743543]
グラフ・ツー・テキスト(G2T)とテキスト・ツー・テキスト(T2G)の変換のためのディープラーニングモデルは、訓練データ不足に悩まされる。
本稿では,非並列グラフとテキストデータからブートストラップ可能な教師なしのトレーニング手法であるCycleGTについて述べる。
論文 参考訳(メタデータ) (2020-06-08T15:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。