論文の概要: Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs
- arxiv url: http://arxiv.org/abs/2509.01790v1
- Date: Mon, 01 Sep 2025 21:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.845113
- Title: Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs
- Title(参考訳): 欠陥と人工物 : LLM評価におけるプロンプト感度の再考
- Authors: Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin,
- Abstract要約: ハイプロンプト感度は、大規模言語モデルのコアリミットとして広く受け入れられている。
広く報告されているハイプロンプト感度は、本当にLLMの本質的な弱点なのか、それとも、主に評価プロセスの成果物なのか?
即発感度の多くは,ログライクなスコアリングや厳密な回答マッチングなど,評価手法に起因していることがわかった。
- 参考スコア(独自算出の注目度): 34.51801559719707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e., repeating something written or spoken using different words) leads to significant changes in large language model (LLM) performance, has been widely accepted as a core limitation of LLMs. In this work, we revisit this issue and ask: Is the widely reported high prompt sensitivity truly an inherent weakness of LLMs, or is it largely an artifact of evaluation processes? To answer this question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family) across 6 benchmarks, including both multiple-choice and open-ended tasks on 12 diverse prompt templates. We find that much of the prompt sensitivity stems from heuristic evaluation methods, including log-likelihood scoring and rigid answer matching, which often overlook semantically correct responses expressed through alternative phrasings, such as synonyms or paraphrases. When we adopt LLM-as-a-Judge evaluations, we observe a substantial reduction in performance variance and a consistently higher correlation in model rankings across prompts. Our findings suggest that modern LLMs are more robust to prompt templates than previously believed, and that prompt sensitivity may be more an artifact of evaluation than a flaw in the models.
- Abstract(参考訳): プロンプト感度(英: Prompt sensitivity)とは、言語モデル(LLM)の性能が大きな変化をもたらす現象であり、LLMのコアリミットとして広く受け入れられている現象である。
この論文では、この問題を再考し、次のように問いかけます。 広く報告されているハイプロンプト感度は、本当にLLMの本質的な弱点なのか、それとも、主に評価プロセスの成果物なのか?
この問題に対処するため,12種類のプロンプトテンプレート上での複数選択タスクとオープンエンドタスクを含む,6つのベンチマークで7つのLSM(例, GPT, Gemini family)を体系的に評価した。
本研究は, 意味論的に正しい応答を, 同義語やパラフレーズなど別の言い回しで表すような, 対数的なスコアリングや厳密な回答マッチングなど, ヒューリスティックな評価手法に起因していることがわかった。
LLM-as-a-Judgeの評価を採用すると、性能のばらつきが大幅に減少し、プロンプト間のモデルランキングが一貫した高い相関関係が観察される。
以上の結果から,現代のLCMは従来考えられていたよりもテンプレートのプロンプトに頑健であり,モデルの欠陥よりも迅速な感度が評価の成果である可能性が示唆された。
関連論文リスト
- Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Social Bias Evaluation for Large Language Models Requires Prompt Variations [38.91306092184724]
大規模言語モデル(LLM)は、かなりの社会的偏見を示す。
本稿では,高速変動変化におけるLDMの感度について検討する。
LLMは、そのプロンプトによって引き起こされる社会的偏見と性能のトレードオフがあることが示される。
論文 参考訳(メタデータ) (2024-07-03T14:12:04Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。