論文の概要: LongForm: Effective Instruction Tuning with Reverse Instructions
- arxiv url: http://arxiv.org/abs/2304.08460v2
- Date: Wed, 14 Feb 2024 18:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-15 20:10:43.410793
- Title: LongForm: Effective Instruction Tuning with Reverse Instructions
- Title(参考訳): LongForm: 逆命令による効果的なインストラクションチューニング
- Authors: Abdullatif K\"oksal, Timo Schick, Anna Korhonen, Hinrich Sch\"utze
- Abstract要約: 本稿では,逆命令によって生成されるLongForm-Cデータセットを紹介する。
まず、C4やウィキペディアなどのコーパスから、多種多様な人文文書を選択する。
逆命令を用いた人書きコーパスの例を LLM で生成する。
- 参考スコア(独自算出の注目度): 43.7029933201002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning enables language models to more effectively generalize and
better follow user intent. However, obtaining instruction data is costly and
challenging. Prior work employs methods such as expensive human annotation,
crowd-sourced datasets with alignment issues, and generating noisy examples via
LLMs. We introduce the LongForm-C dataset, which is created by reverse
instructions. We generate instructions via LLMs for human-written corpus
examples using reverse instructions. First we select a diverse set of
human-written documents from corpora such as C4 and Wikipedia; then we generate
instructions for these documents via LLMs. This approach provides a cheaper and
cleaner instruction-tuning dataset with natural output and one suitable for
long text generation. Our models outperform 10x larger language models without
instruction tuning on tasks such as story/recipe generation and long-form
question answering. Moreover, LongForm models outperform prior
instruction-tuned models such as FLAN-T5 and Alpaca by a large margin, and
improve language understanding capabilities further. Finally, our models can
effectively follow and answer multilingual instructions; we demonstrate this
for news generation. We publicly release our data and models:
https://github.com/akoksal/LongForm.
- Abstract(参考訳): インストラクションチューニングにより、言語モデルはより効果的に一般化され、ユーザの意図に従うことができる。
しかし、命令データを取得することは費用がかかり難い。
以前の作業では、高価なヒューマンアノテーション、アライメント問題を伴うクラウドソースデータセット、llmによる騒がしいサンプル生成などの手法が採用されている。
逆命令によって生成されるLongForm-Cデータセットを紹介する。
逆命令を用いた人書きコーパスの例を LLM で生成する。
まず、C4やウィキペディアなどのコーパスから多種多様な人文文書を選択し、LLMを通してこれらの文書の指示を生成する。
このアプローチは、自然出力と長いテキスト生成に適した、安価でクリーンな命令チューニングデータセットを提供する。
我々のモデルは、ストーリー/レシピ生成や長文質問応答といったタスクを指導することなく、10倍の言語モデルより優れています。
さらに、longformモデルは、flan-t5やalpacaのような事前の命令調整モデルを大きく上回り、言語理解能力をさらに向上させる。
最後に,本モデルは多言語命令を効果的に追従し,回答することができる。
データとモデルを公開しています。 https://github.com/akoksal/longform.com/。
関連論文リスト
- Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models [22.16558378953053]
我々は、人間による命令から得られた最先端の命令チューニングデータセットを構築した。
LLMは私たちのデータセットで微調整され、既存のデータセットで微調整されています。
分析によれば、新しい言語での命令チューニングにより、LLMは命令に従うことができるが、チューニングされたモデルは、その言語における文化固有の知識の欠如を顕著に示している。
論文 参考訳(メタデータ) (2025-03-31T04:28:38Z) - Cookbook: A framework for improving LLM generative abilities via programmatic data generating templates [57.29125360837203]
Cookbookはランダムトークン上の単純なパターンからなるトレーニングデータを生成するフレームワークである。
クックブック生成したデータの微調整により,対応するタスクの性能を最大52.7の精度で向上できることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:29:40Z) - Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (2023-08-11T17:47:54Z) - WizardCoder: Empowering Code Large Language Models with Evol-Instruct [67.24653703564492]
WezardCoderは、複雑な命令の微調整でコードLLMをパワーアップする。
私たちのモデルは、他のすべてのオープンソースコードLLMをかなり上回ります。
論文 参考訳(メタデータ) (2023-06-14T15:18:48Z) - Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation [92.2167864437497]
インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
論文 参考訳(メタデータ) (2023-05-23T17:56:26Z) - Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。