論文の概要: Self-Instruct: Aligning Language Models with Self-Generated Instructions
- arxiv url: http://arxiv.org/abs/2212.10560v2
- Date: Thu, 25 May 2023 23:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 22:49:23.634648
- Title: Self-Instruct: Aligning Language Models with Self-Generated Instructions
- Title(参考訳): self-instruct: 言語モデルと自己生成命令の整合
- Authors: Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith,
Daniel Khashabi, Hannaneh Hajishirzi
- Abstract要約: Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
- 参考スコア(独自算出の注目度): 76.42871502364697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large "instruction-tuned" language models (i.e., finetuned to respond to
instructions) have demonstrated a remarkable ability to generalize zero-shot to
new tasks. Nevertheless, they depend heavily on human-written instruction data
that is often limited in quantity, diversity, and creativity, therefore
hindering the generality of the tuned model. We introduce Self-Instruct, a
framework for improving the instruction-following capabilities of pretrained
language models by bootstrapping off their own generations. Our pipeline
generates instructions, input, and output samples from a language model, then
filters invalid or similar ones before using them to finetune the original
model. Applying our method to the vanilla GPT3, we demonstrate a 33% absolute
improvement over the original model on Super-NaturalInstructions, on par with
the performance of InstructGPT-001, which was trained with private user data
and human annotations. For further evaluation, we curate a set of
expert-written instructions for novel tasks, and show through human evaluation
that tuning GPT3 with Self-Instruct outperforms using existing public
instruction datasets by a large margin, leaving only a 5% absolute gap behind
InstructGPT-001. Self-Instruct provides an almost annotation-free method for
aligning pre-trained language models with instructions, and we release our
large synthetic dataset to facilitate future studies on instruction tuning. Our
code and data are available at https://github.com/yizhongw/self-instruct.
- Abstract(参考訳): 大きな"インストラクションチューニング"言語モデル(命令に応答するために微調整された)は、ゼロショットを新しいタスクに一般化する驚くべき能力を示している。
それでも、それらはしばしば量、多様性、創造性に制限される人間による命令データに大きく依存しているため、チューニングされたモデルの一般化を妨げる。
我々は,事前学習された言語モデルの命令追従能力を改善するためのフレームワークであるself-instructを紹介する。
パイプラインは言語モデルから命令、入力、および出力を生成し、元のモデルを微調整するために使用する前に、無効または類似のサンプルをフィルタする。
提案手法をバニラgpt3に適用し,個人ユーザデータと人間のアノテーションで学習したinstructgpt-001の性能に匹敵する,スーパーナチュラルインストラクションの原型モデルに対する絶対値の33%向上を実証した。
さらに,新しいタスクに対する専門家による指示の集合をキュレートし,既存の公開命令データセットを用いてGPT3とセルフインストラクトのチューニング性能を大きなマージンで向上させ,InstructGPT-001の背後には5%の絶対差しか残っていないことを示す。
Self-Instructは、事前訓練された言語モデルを命令と整合させるほとんどアノテーションのない方法を提供する。
コードとデータはhttps://github.com/yizhongw/self-instruct.com/で入手できます。
関連論文リスト
- REInstruct: Building Instruction Data from Unlabeled Corpus [49.82314244648043]
本稿では,ラベルのないコーパスから命令データを自動的に構築するREInstructを提案する。
Llama-7bをREInstructから3kシードデータと32k合成データの組み合わせで訓練することにより、微細調整されたモデルがAlpacaEvalのリーダーボード上でテキストダヴィンチ003に対して65.41%の勝利率を達成する。
論文 参考訳(メタデータ) (2024-08-20T09:05:03Z) - Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (2023-08-11T17:47:54Z) - Evaluating the Zero-shot Robustness of Instruction-tuned Language Models [23.488398944358643]
新規な(観測されていない)が適切な命令表現を用いることで、モデル性能は一貫して低下することがわかった。
本稿では,ソフトプロンプトの埋め込みパラメータを導入することで,この問題を軽減するための簡単な手法を提案する。
本手法は命令調整モデルのロバスト性を常に改善することを示す。
論文 参考訳(メタデータ) (2023-06-20T03:48:51Z) - LongForm: Effective Instruction Tuning with Reverse Instructions [74.14035528786997]
本稿では,逆命令によって生成されるLongForm-Cデータセットを紹介する。
逆命令を用いた人書きコーパスの例を LLM で生成する。
我々のモデルは、ストーリー/レシピ生成や長文質問応答といったタスクを指導することなく、10倍の言語モデルより優れています。
論文 参考訳(メタデータ) (2023-04-17T17:36:35Z) - Unnatural Instructions: Tuning Language Models with (Almost) No Human
Labor [48.116843121810135]
非自然的インストラクション(Unnatural Instructions: 創造的で多様なインストラクションの大規模なデータセット)を紹介します。
命令の3つのシード例と4番目の例を抽出した言語モデルによって64,000のサンプルを収集する。
このセットは、モデルに各命令を言い換えるよう促すことで拡張され、約24万の命令、入力、出力の例が生成される。
論文 参考訳(メタデータ) (2022-12-19T18:21:00Z) - Training language models to follow instructions with human feedback [29.590666996229206]
本稿では,人間のフィードバックを微調整することで,言語モデルとユーザ意図との整合性を示す。
インストラクションGPTモデルは、有害な出力生成の真理性の改善と削減を示す。
論文 参考訳(メタデータ) (2022-03-04T07:04:42Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。