Fugu-MT 論文翻訳(概要): Evaluating the Zero-shot Robustness of Instruction-tuned Language Models

論文の概要: Evaluating the Zero-shot Robustness of Instruction-tuned Language Models

arxiv url: http://arxiv.org/abs/2306.11270v1
Date: Tue, 20 Jun 2023 03:48:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 15:42:14.306759
Title: Evaluating the Zero-shot Robustness of Instruction-tuned Language Models
Title（参考訳）: 命令型言語モデルのゼロショットロバスト性の評価
Authors: Jiuding Sun, Chantal Shaib, Byron C. Wallace
Abstract要約: 新規な(観測されていない)が適切な命令表現を用いることで、モデル性能は一貫して低下することがわかった。本稿では,ソフトプロンプトの埋め込みパラメータを導入することで,この問題を軽減するための簡単な手法を提案する。本手法は命令調整モデルのロバスト性を常に改善することを示す。
参考スコア（独自算出の注目度）: 23.488398944358643
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction fine-tuning has recently emerged as a promising approach for improving the zero-shot capabilities of Large Language Models (LLMs) on new tasks. This technique has shown particular strength in improving the performance of modestly sized LLMs, sometimes inducing performance competitive with much larger model variants. In this paper we ask two questions: (1) How sensitive are instruction-tuned models to the particular phrasings of instructions, and, (2) How can we make them more robust to such natural language variation? To answer the former, we collect a set of 319 instructions manually written by NLP practitioners for over 80 unique tasks included in widely used benchmarks, and we evaluate the variance and average performance of these instructions as compared to instruction phrasings observed during instruction fine-tuning. We find that using novel (unobserved) but appropriate instruction phrasings consistently degrades model performance, sometimes substantially so. Further, such natural instructions yield a wide variance in downstream performance, despite their semantic equivalence. Put another way, instruction-tuned models are not especially robust to instruction re-phrasings. We propose a simple method to mitigate this issue by introducing ``soft prompt'' embedding parameters and optimizing these to maximize the similarity between representations of semantically equivalent instructions. We show that this method consistently improves the robustness of instruction-tuned models.
Abstract（参考訳）: 命令の微調整は、新しいタスクにおける大規模言語モデル(llm)のゼロショット能力を改善するための有望なアプローチとして最近登場した。この技術は、控えめな大きさのLLMの性能向上において特に強みを示しており、時にはより大型のモデルと競合する性能を誘導する。本論文では,(1)命令調整モデルと命令の特定の記述にどの程度敏感か,(2)自然言語変化に対してどのようにより強固にできるか,という2つの疑問を問う。前者に対応するために,NLP実践者が手書きした319個の命令を,広く使用されているベンチマークに含まれる80以上のユニークなタスクに対して収集し,これらの命令のばらつきと平均性能を,命令微調整中に観察された命令句と比較して評価した。我々は,新しい(観測されていない)が適切な命令句を用いることで,モデルの性能を劣化させることがある。さらに、このような自然な命令は、意味的同値にもかかわらず、下流のパフォーマンスに幅広いばらつきをもたらす。別の言い方をすれば、命令調整されたモデルは命令の再記述に対して特に堅牢ではない。本稿では,「ソフトプロンプト」埋め込みパラメータを導入し,意味的に等価な命令の表現の類似性を最大化するために最適化することで,この問題を軽減するための簡単な手法を提案する。本手法は命令調整モデルのロバスト性を常に改善することを示す。

関連論文リスト

Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。 PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文参考訳（メタデータ） (2024-02-17T00:09:32Z)
Instructive Decoding: Instruction-Tuned Large Language Models are Self-Refiner from Noisy Instructions [26.192531184689763]
本稿では,インストラクティブ・デコーディング(Instructive Decoding, ID)を提案する。 IDは、元の命令の操作されたバージョンから生成された予測を利用して、逆方向の予測のためにロジットを調整する。ランダムな単語を介して意味的ノイズを挿入するものから、逸脱した応答を誘発する「オポジット」のような他のものまで、このようなノイズの多い命令のスペクトルにわたって実験を行う。
論文参考訳（メタデータ） (2023-11-01T02:31:35Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文参考訳（メタデータ） (2023-05-24T04:22:26Z)
Enhancing Large Language Models Against Inductive Instructions with Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文参考訳（メタデータ） (2023-05-23T06:38:20Z)
Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文参考訳（メタデータ） (2022-12-20T18:59:19Z)
Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。 137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。 FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文参考訳（メタデータ） (2021-09-03T17:55:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。