Fugu-MT 論文翻訳(概要): Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting

論文の概要: Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting

arxiv url: http://arxiv.org/abs/2310.11324v1
Date: Tue, 17 Oct 2023 15:03:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 15:18:39.881538
Title: Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting
Title（参考訳）: 言語モデルのプロンプトデザインにおける純粋特徴に対する感受性の定量化
Authors: Melanie Sclar, Yejin Choi, Yulia Tsvetkov, Alane Suhr
Abstract要約: 言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
参考スコア（独自算出の注目度）: 74.49862625580188
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models (LLMs) are adopted as a fundamental component of language technologies, it is crucial to accurately characterize their performance. Because choices in prompt design can strongly influence model behavior, this design process is critical in effectively using any modern pre-trained generative language model. In this work, we focus on LLM sensitivity to a quintessential class of meaning-preserving design choices: prompt formatting. We find that several widely used open-source LLMs are extremely sensitive to subtle changes in prompt formatting in few-shot settings, with performance differences of up to 76 accuracy points when evaluated using LLaMA-2-13B. Sensitivity remains even when increasing model size, the number of few-shot examples, or performing instruction tuning. Our analysis suggests that work evaluating LLMs with prompting-based methods would benefit from reporting a range of performance across plausible prompt formats, instead of the currently-standard practice of reporting performance on a single format. We also show that format performance only weakly correlates between models, which puts into question the methodological validity of comparing models with an arbitrarily chosen, fixed prompt format. To facilitate systematic analysis we propose FormatSpread, an algorithm that rapidly evaluates a sampled set of plausible prompt formats for a given task, and reports the interval of expected performance without accessing model weights. Furthermore, we present a suite of analyses that characterize the nature of this sensitivity, including exploring the influence of particular atomic perturbations and the internal representation of particular formats.
Abstract（参考訳）: 大規模言語モデル(LLM)が言語技術の基本コンポーネントとして採用されているため,その性能を正確に評価することが重要である。プロンプトデザインの選択はモデルの振る舞いに強く影響するので、この設計プロセスは、現代の事前学習された生成言語モデルを使うのに不可欠である。本研究は, 意味保存設計選択の重要クラスである即時フォーマッティングに対するLCM感度に着目した。 LLaMA-2-13B を用いて評価すると,いくつかのオープンソース LLM は,数ショット設定でのプロンプトフォーマットの微妙な変更に対して極めて敏感であることがわかった。感性は、モデルサイズ、数ショットの例の数、あるいは命令チューニングを実行する場合にも持続する。分析の結果,従来の1つのフォーマットで性能を報告する手法ではなく,プロンプトベースの手法でLCMを評価する作業は,有効なプロンプトフォーマットにまたがる幅広いパフォーマンスを報告することのメリットが示唆された。また,フォーマット性能はモデル間の相関が弱く,モデルと任意に選択された固定されたプロンプト形式を比較する方法論的妥当性に疑問を呈する。体系的解析を容易にするため,我々は,与えられたタスクの可能なプロンプトフォーマットのサンプルセットを迅速に評価し,モデル重み付けにアクセスせずに期待性能の間隔を報告するアルゴリズムである formatpread を提案する。さらに、この感度の性質を特徴づける一連の分析を行い、特定の原子摂動と特定のフォーマットの内部表現の影響について検討する。

関連論文リスト

Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles [32.121191446326876]
さまざまなモデルやタスクにまたがって、低いか高いパフォーマンスを連続的に引き起こす異なる書き込みスタイルを特定します。我々の研究は、既存のベンチマークを拡大するためのスケーラブルなアプローチを提供し、LLM性能の測定に提供される評価の外部的妥当性を改善します。
論文参考訳（メタデータ） (2025-07-29T18:59:09Z)
Say It Another Way: Auditing LLMs with a User-Grounded Automated Paraphrasing Framework [9.162876771766513]
本稿では,言語構造とユーザ人口統計に基づく,制御された現実的なプロンプトフレーズを生成するフレームワークであるAUGMENTを紹介する。 AUGMENTは、セマンティック、スタイリスティック、命令追従の基準を組み合わせることで、パラフレーズの品質を保証する。この結果から,大規模言語モデルにおいて,より代表的で構造化されたアプローチの必要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-06T14:17:30Z)
Benchmarking Prompt Sensitivity in Large Language Models [13.986971540998258]
大規模言語モデル(LLM)は、迅速な定式化のバリエーションに非常に敏感である。本稿では,LLMの性能に及ぼす短時間の即時変動の影響を調べるために,新しいタスクであるPrompt Sensitivity Predictionとデータセットを提案する。
論文参考訳（メタデータ） (2025-02-09T23:01:03Z)
Does Prompt Formatting Have Any Impact on LLM Performance? [10.869929764785464]
本稿では,異なるプロンプトテンプレートが大規模言語モデル(LLM)の性能に与える影響について検討する。自然言語推論やコード生成,OpenAIのGPTモデルを用いた翻訳といったタスクに対する影響を評価した。実験の結果、GPT-3.5-turboの性能はプロンプトテンプレートによって最大40%変化し、GPT-4のような大型モデルはより堅牢であることがわかった。
論文参考訳（メタデータ） (2024-11-15T19:26:38Z)
Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。我々は,既存の勾配法を改良し,大規模に効果的に機能させる。我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文参考訳（メタデータ） (2024-10-22T20:39:21Z)
LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs [69.40865293066885]
本稿では,大規模言語モデル(LLM)の性能評価において,形式バイアスを考慮した最初の体系的評価を提案する。本稿では,複数の質問回答,ラッピング,リスト,マッピングの4つのカテゴリにまたがる経験的形式バイアス評価について述べる。
論文参考訳（メタデータ） (2024-08-16T10:45:45Z)
Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters [21.19251212483406]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々な商用アプリケーションに応用範囲を広げている。本稿では,投機的復号化における補助モデルのトレーニング手法について検討し,将来のトークンを目標LLMで検証する。言語固有のドラフトモデルは,対象とする事前訓練とファイントゥン戦略によって最適化され,従来の手法に比べて推論時間を大幅に短縮することを示す。
論文参考訳（メタデータ） (2024-06-24T16:06:50Z)
OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。 OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文参考訳（メタデータ） (2024-06-12T17:37:09Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
Experimental Design for Active Transductive Inference in Large Language Models [18.2671641610825]
適応的なプロンプト設計にアクティブラーニングを使用し、それをアクティブ・インコンテクスト・プロンプト・デザイン(AIPD)と呼ぶ。テストセットの性能を最適化するために、トレーニングセットから少数ショット例を適応的に選択し、LCMプロンプトを設計する。 GOとSALの2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-12T23:27:46Z)
A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2024-02-10T11:14:53Z)
LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。 LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。ゼロショット学習よりもパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-12T17:17:27Z)
MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文参考訳（メタデータ） (2023-06-15T06:51:35Z)
Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文参考訳（メタデータ） (2023-02-19T14:08:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。