論文の概要: When Wording Steers the Evaluation: Framing Bias in LLM judges
- arxiv url: http://arxiv.org/abs/2601.13537v1
- Date: Tue, 20 Jan 2026 02:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.128292
- Title: When Wording Steers the Evaluation: Framing Bias in LLM judges
- Title(参考訳): LLM審査員が判断を下すとき
- Authors: Yerin Hwang, Dongryeol Lee, Taegwan Kang, Minwoo Lee, Kyomin Jung,
- Abstract要約: 大規模言語モデル(LLM)は、プロンプトのフレーズによって異なる応答を生成することが知られている。
本研究では, 4つの高い評価課題に対して, フレーミングスキューモデルによる判断を意図的に行う方法について検討する。
14人以上の審査員がフレーミングに対する明らかな感受性を観察し、モデルファミリーは合意や拒絶に対して明確な傾向を示した。
- 参考スコア(独自算出の注目度): 23.16746081917015
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are known to produce varying responses depending on prompt phrasing, indicating that subtle guidance in phrasing can steer their answers. However, the impact of this framing bias on LLM-based evaluation, where models are expected to make stable and impartial judgments, remains largely underexplored. Drawing inspiration from the framing effect in psychology, we systematically investigate how deliberate prompt framing skews model judgments across four high-stakes evaluation tasks. We design symmetric prompts using predicate-positive and predicate-negative constructions and demonstrate that such framing induces significant discrepancies in model outputs. Across 14 LLM judges, we observe clear susceptibility to framing, with model families showing distinct tendencies toward agreement or rejection. These findings suggest that framing bias is a structural property of current LLM-based evaluation systems, underscoring the need for framing-aware protocols.
- Abstract(参考訳): 大規模言語モデル (LLM) は, アクシデント・フレーズによって異なる応答を生成することが知られており, フレーズの微妙なガイダンスが解答を導出できることが示唆されている。
しかし、このフレーミングバイアスがLCMに基づく評価に及ぼす影響は、モデルが安定かつ公平な判断を下すと予想されるが、大部分は未解明のままである。
心理学におけるフレーミング効果からインスピレーションを得て, 4つの高い評価課題において, フレーミング・スキューのモデル判断を意図的に促す方法について, 体系的に検討した。
我々は、述語陽性および述語陰性な構成を用いて対称的なプロンプトを設計し、そのようなフレーミングがモデル出力に顕著な相違をもたらすことを示す。
LLM審査員14名を対象に、フレーミングに対する明らかな感受性を観察し、モデルファミリーは合意や拒絶に対して明確な傾向を示した。
これらの結果から,フレーミングバイアスは現在のLCMに基づく評価システムの構造特性であり,フレーミング・アウェア・プロトコルの必要性が示唆された。
関連論文リスト
- Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。