論文の概要: Self-Instruct: Aligning Language Model with Self Generated Instructions
- arxiv url: http://arxiv.org/abs/2212.10560v1
- Date: Tue, 20 Dec 2022 18:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:00:17.051829
- Title: Self-Instruct: Aligning Language Model with Self Generated Instructions
- Title(参考訳): self-instruct: 言語モデルと自己生成命令の整合
- Authors: Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith,
Daniel Khashabi, Hannaneh Hajishirzi
- Abstract要約: Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルからインストラクション、インプット、およびアウトプットを生成し、それを使用して元のモデルを微調整する。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
- 参考スコア(独自算出の注目度): 76.42871502364697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large "instruction-tuned" language models (finetuned to respond to
instructions) have demonstrated a remarkable ability to generalize zero-shot to
new tasks. Nevertheless, they depend heavily on human-written instruction data
that is limited in quantity, diversity, and creativity, therefore hindering the
generality of the tuned model. We introduce Self-Instruct, a framework for
improving the instruction-following capabilities of pretrained language models
by bootstrapping off its own generations. Our pipeline generates instruction,
input, and output samples from a language model, then prunes them before using
them to finetune the original model. Applying our method to vanilla GPT3, we
demonstrate a 33% absolute improvement over the original model on
Super-NaturalInstructions, on par with the performance of InstructGPT_001,
which is trained with private user data and human annotations. For further
evaluation, we curate a set of expert-written instructions for novel tasks, and
show through human evaluation that tuning GPT3 with Self-Instruct outperforms
using existing public instruction datasets by a large margin, leaving only a 5%
absolute gap behind InstructGPT_001. Self-Instruct provides an almost
annotation-free method for aligning pre-trained language models with
instructions, and we release our large synthetic dataset to facilitate future
studies on instruction tuning.
- Abstract(参考訳): 命令に応答するために微調整された)大規模な「命令調整」言語モデルは、ゼロショットを新しいタスクに一般化する驚くべき能力を示している。
それでも、それらは量、多様性、創造性に制限された人間による命令データに大きく依存しているため、調整されたモデルの一般化を妨げる。
我々は,事前学習された言語モデルの命令追従能力を向上させるためのフレームワークであるself-instructを紹介する。
私たちのパイプラインは、言語モデルからインストラクション、インプット、およびアウトプットを生成し、それを使用して元のモデルを微調整する。
提案手法をバニラGPT3に適用することにより,個人のユーザデータと人間のアノテーションをトレーニングしたInstructGPT_001の性能に匹敵する,Super-Natural Instructionsのオリジナルモデルに対する33%の絶対的な改善を実演する。
さらに,新しいタスクに対する専門家による指示の集合をキュレートし,既存の公開命令データセットを用いてGPT3とセルフインストラクトのチューニング性能を大きなマージンで向上させ,InstructGPT_001の背後には5%の絶対差しか残っていないことを示す。
Self-Instructは、事前訓練された言語モデルを命令と整合させるほとんどアノテーションのない方法を提供する。
関連論文リスト
- REInstruct: Building Instruction Data from Unlabeled Corpus [49.82314244648043]
本稿では,ラベルのないコーパスから命令データを自動的に構築するREInstructを提案する。
Llama-7bをREInstructから3kシードデータと32k合成データの組み合わせで訓練することにより、微細調整されたモデルがAlpacaEvalのリーダーボード上でテキストダヴィンチ003に対して65.41%の勝利率を達成する。
論文 参考訳(メタデータ) (2024-08-20T09:05:03Z) - Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (2023-08-11T17:47:54Z) - Evaluating the Zero-shot Robustness of Instruction-tuned Language Models [23.488398944358643]
新規な(観測されていない)が適切な命令表現を用いることで、モデル性能は一貫して低下することがわかった。
本稿では,ソフトプロンプトの埋め込みパラメータを導入することで,この問題を軽減するための簡単な手法を提案する。
本手法は命令調整モデルのロバスト性を常に改善することを示す。
論文 参考訳(メタデータ) (2023-06-20T03:48:51Z) - LongForm: Effective Instruction Tuning with Reverse Instructions [74.14035528786997]
本稿では,逆命令によって生成されるLongForm-Cデータセットを紹介する。
逆命令を用いた人書きコーパスの例を LLM で生成する。
我々のモデルは、ストーリー/レシピ生成や長文質問応答といったタスクを指導することなく、10倍の言語モデルより優れています。
論文 参考訳(メタデータ) (2023-04-17T17:36:35Z) - Unnatural Instructions: Tuning Language Models with (Almost) No Human
Labor [48.116843121810135]
非自然的インストラクション(Unnatural Instructions: 創造的で多様なインストラクションの大規模なデータセット)を紹介します。
命令の3つのシード例と4番目の例を抽出した言語モデルによって64,000のサンプルを収集する。
このセットは、モデルに各命令を言い換えるよう促すことで拡張され、約24万の命令、入力、出力の例が生成される。
論文 参考訳(メタデータ) (2022-12-19T18:21:00Z) - Training language models to follow instructions with human feedback [29.590666996229206]
本稿では,人間のフィードバックを微調整することで,言語モデルとユーザ意図との整合性を示す。
インストラクションGPTモデルは、有害な出力生成の真理性の改善と削減を示す。
論文 参考訳(メタデータ) (2022-03-04T07:04:42Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。