論文の概要: Quantifying Language Models' Sensitivity to Spurious Features in Prompt
Design or: How I learned to start worrying about prompt formatting
- arxiv url: http://arxiv.org/abs/2310.11324v1
- Date: Tue, 17 Oct 2023 15:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:18:39.881538
- Title: Quantifying Language Models' Sensitivity to Spurious Features in Prompt
Design or: How I learned to start worrying about prompt formatting
- Title(参考訳): 言語モデルのプロンプトデザインにおける純粋特徴に対する感受性の定量化
- Authors: Melanie Sclar, Yejin Choi, Yulia Tsvetkov, Alane Suhr
- Abstract要約: 言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
- 参考スコア(独自算出の注目度): 74.49862625580188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are adopted as a fundamental component of
language technologies, it is crucial to accurately characterize their
performance. Because choices in prompt design can strongly influence model
behavior, this design process is critical in effectively using any modern
pre-trained generative language model. In this work, we focus on LLM
sensitivity to a quintessential class of meaning-preserving design choices:
prompt formatting. We find that several widely used open-source LLMs are
extremely sensitive to subtle changes in prompt formatting in few-shot
settings, with performance differences of up to 76 accuracy points when
evaluated using LLaMA-2-13B. Sensitivity remains even when increasing model
size, the number of few-shot examples, or performing instruction tuning. Our
analysis suggests that work evaluating LLMs with prompting-based methods would
benefit from reporting a range of performance across plausible prompt formats,
instead of the currently-standard practice of reporting performance on a single
format. We also show that format performance only weakly correlates between
models, which puts into question the methodological validity of comparing
models with an arbitrarily chosen, fixed prompt format. To facilitate
systematic analysis we propose FormatSpread, an algorithm that rapidly
evaluates a sampled set of plausible prompt formats for a given task, and
reports the interval of expected performance without accessing model weights.
Furthermore, we present a suite of analyses that characterize the nature of
this sensitivity, including exploring the influence of particular atomic
perturbations and the internal representation of particular formats.
- Abstract(参考訳): 大規模言語モデル(LLM)が言語技術の基本コンポーネントとして採用されているため,その性能を正確に評価することが重要である。
プロンプトデザインの選択はモデルの振る舞いに強く影響するので、この設計プロセスは、現代の事前学習された生成言語モデルを使うのに不可欠である。
本研究は, 意味保存設計選択の重要クラスである即時フォーマッティングに対するLCM感度に着目した。
LLaMA-2-13B を用いて評価すると,いくつかのオープンソース LLM は,数ショット設定でのプロンプトフォーマットの微妙な変更に対して極めて敏感であることがわかった。
感性は、モデルサイズ、数ショットの例の数、あるいは命令チューニングを実行する場合にも持続する。
分析の結果,従来の1つのフォーマットで性能を報告する手法ではなく,プロンプトベースの手法でLCMを評価する作業は,有効なプロンプトフォーマットにまたがる幅広いパフォーマンスを報告することのメリットが示唆された。
また,フォーマット性能はモデル間の相関が弱く,モデルと任意に選択された固定されたプロンプト形式を比較する方法論的妥当性に疑問を呈する。
体系的解析を容易にするため,我々は,与えられたタスクの可能なプロンプトフォーマットのサンプルセットを迅速に評価し,モデル重み付けにアクセスせずに期待性能の間隔を報告するアルゴリズムである formatpread を提案する。
さらに、この感度の性質を特徴づける一連の分析を行い、特定の原子摂動と特定のフォーマットの内部表現の影響について検討する。
関連論文リスト
- Does Prompt Formatting Have Any Impact on LLM Performance? [10.869929764785464]
本稿では,異なるプロンプトテンプレートが大規模言語モデル(LLM)の性能に与える影響について検討する。
自然言語推論やコード生成,OpenAIのGPTモデルを用いた翻訳といったタスクに対する影響を評価した。
実験の結果、GPT-3.5-turboの性能はプロンプトテンプレートによって最大40%変化し、GPT-4のような大型モデルはより堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-11-15T19:26:38Z) - LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs [69.40865293066885]
本稿では,大規模言語モデル(LLM)の性能評価において,形式バイアスを考慮した最初の体系的評価を提案する。
本稿では,複数の質問回答,ラッピング,リスト,マッピングの4つのカテゴリにまたがる経験的形式バイアス評価について述べる。
論文 参考訳(メタデータ) (2024-08-16T10:45:45Z) - Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters [21.19251212483406]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々な商用アプリケーションに応用範囲を広げている。
本稿では,投機的復号化における補助モデルのトレーニング手法について検討し,将来のトークンを目標LLMで検証する。
言語固有のドラフトモデルは,対象とする事前訓練とファイントゥン戦略によって最適化され,従来の手法に比べて推論時間を大幅に短縮することを示す。
論文 参考訳(メタデータ) (2024-06-24T16:06:50Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Experimental Design for Active Transductive Inference in Large Language Models [18.2671641610825]
適応的なプロンプト設計にアクティブラーニングを使用し、それをアクティブ・インコンテクスト・プロンプト・デザイン(AIPD)と呼ぶ。
テストセットの性能を最適化するために、トレーニングセットから少数ショット例を適応的に選択し、LCMプロンプトを設計する。
GOとSALの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T23:27:46Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。