論文の概要: Evaluating the Zero-shot Robustness of Instruction-tuned Language Models
- arxiv url: http://arxiv.org/abs/2306.11270v1
- Date: Tue, 20 Jun 2023 03:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 15:42:14.306759
- Title: Evaluating the Zero-shot Robustness of Instruction-tuned Language Models
- Title(参考訳): 命令型言語モデルのゼロショットロバスト性の評価
- Authors: Jiuding Sun, Chantal Shaib, Byron C. Wallace
- Abstract要約: 新規な(観測されていない)が適切な命令表現を用いることで、モデル性能は一貫して低下することがわかった。
本稿では,ソフトプロンプトの埋め込みパラメータを導入することで,この問題を軽減するための簡単な手法を提案する。
本手法は命令調整モデルのロバスト性を常に改善することを示す。
- 参考スコア(独自算出の注目度): 23.488398944358643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction fine-tuning has recently emerged as a promising approach for
improving the zero-shot capabilities of Large Language Models (LLMs) on new
tasks. This technique has shown particular strength in improving the
performance of modestly sized LLMs, sometimes inducing performance competitive
with much larger model variants. In this paper we ask two questions: (1) How
sensitive are instruction-tuned models to the particular phrasings of
instructions, and, (2) How can we make them more robust to such natural
language variation? To answer the former, we collect a set of 319 instructions
manually written by NLP practitioners for over 80 unique tasks included in
widely used benchmarks, and we evaluate the variance and average performance of
these instructions as compared to instruction phrasings observed during
instruction fine-tuning. We find that using novel (unobserved) but appropriate
instruction phrasings consistently degrades model performance, sometimes
substantially so. Further, such natural instructions yield a wide variance in
downstream performance, despite their semantic equivalence. Put another way,
instruction-tuned models are not especially robust to instruction re-phrasings.
We propose a simple method to mitigate this issue by introducing ``soft
prompt'' embedding parameters and optimizing these to maximize the similarity
between representations of semantically equivalent instructions. We show that
this method consistently improves the robustness of instruction-tuned models.
- Abstract(参考訳): 命令の微調整は、新しいタスクにおける大規模言語モデル(llm)のゼロショット能力を改善するための有望なアプローチとして最近登場した。
この技術は、控えめな大きさのLLMの性能向上において特に強みを示しており、時にはより大型のモデルと競合する性能を誘導する。
本論文では,(1)命令調整モデルと命令の特定の記述にどの程度敏感か,(2)自然言語変化に対してどのようにより強固にできるか,という2つの疑問を問う。
前者に対応するために,NLP実践者が手書きした319個の命令を,広く使用されているベンチマークに含まれる80以上のユニークなタスクに対して収集し,これらの命令のばらつきと平均性能を,命令微調整中に観察された命令句と比較して評価した。
我々は,新しい(観測されていない)が適切な命令句を用いることで,モデルの性能を劣化させることがある。
さらに、このような自然な命令は、意味的同値にもかかわらず、下流のパフォーマンスに幅広いばらつきをもたらす。
別の言い方をすれば、命令調整されたモデルは命令の再記述に対して特に堅牢ではない。
本稿では,「ソフトプロンプト」埋め込みパラメータを導入し,意味的に等価な命令の表現の類似性を最大化するために最適化することで,この問題を軽減するための簡単な手法を提案する。
本手法は命令調整モデルのロバスト性を常に改善することを示す。
関連論文リスト
- Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Instructive Decoding: Instruction-Tuned Large Language Models are
Self-Refiner from Noisy Instructions [26.192531184689763]
本稿では,インストラクティブ・デコーディング(Instructive Decoding, ID)を提案する。
IDは、元の命令の操作されたバージョンから生成された予測を利用して、逆方向の予測のためにロジットを調整する。
ランダムな単語を介して意味的ノイズを挿入するものから、逸脱した応答を誘発する「オポジット」のような他のものまで、このようなノイズの多い命令のスペクトルにわたって実験を行う。
論文 参考訳(メタデータ) (2023-11-01T02:31:35Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:59:19Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。