論文の概要: Judging Against the Reference: Uncovering Knowledge-Driven Failures in LLM-Judges on QA Evaluation
- arxiv url: http://arxiv.org/abs/2601.07506v1
- Date: Mon, 12 Jan 2026 13:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.391581
- Title: Judging Against the Reference: Uncovering Knowledge-Driven Failures in LLM-Judges on QA Evaluation
- Title(参考訳): 基準に反する判断: LLM-Judgesにおける知識駆動的失敗の発見とQA評価
- Authors: Dongryeol Lee, Yerin Hwang, Taegwan Kang, Minwoo Lee, Younhyung Chae, Kyomin Jung,
- Abstract要約: 大規模言語モデル(LLM)は、質問応答(QA)のための自動判断器として、ますます使われている。
提案した基準が判定モデルのパラメトリック知識と矛盾すると,結果の信頼性が低下し,評価精度が著しく低下することを示す。
我々は、この脆弱性は、裁判官がパラメトリック知識を過度に信頼していることによって引き起こされていることを実証的に示す。
- 参考スコア(独自算出の注目度): 21.864019348357303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) are increasingly used as automatic judges for question answering (QA) and other reference-conditioned evaluation tasks, little is known about their ability to adhere to a provided reference. We identify a critical failure mode of such reference-based LLM QA evaluation: when the provided reference conflicts with the judge model's parametric knowledge, the resulting scores become unreliable, substantially degrading evaluation fidelity. To study this phenomenon systematically, we introduce a controlled swapped-reference QA framework that induces reference-belief conflicts. Specifically, we replace the reference answer with an incorrect entity and construct diverse pairings of original and swapped references with correspondingly aligned candidate answers. Surprisingly, grading reliability drops sharply under swapped references across a broad set of judge models. We empirically show that this vulnerability is driven by judges' over-reliance on parametric knowledge, leading judges to disregard the given reference under conflict. Finally, we find that this failure persists under common prompt-based mitigation strategies, highlighting a fundamental limitation of LLM-as-a-judge evaluation and motivating reference-based protocols that enforce stronger adherence to the provided reference.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問応答(QA)や他の基準条件付き評価タスクの自動判断として使われることが多いが、提供された基準に準拠する能力についてはほとんど知られていない。
提案した基準値が判定モデルのパラメトリック知識と矛盾すると,結果の信頼性が低下し,実質的な評価精度が低下する。
この現象を体系的に研究するために、参照と信頼性の衝突を引き起こす制御されたスワップ参照QAフレームワークを導入する。
具体的には、参照応答を不正なエンティティに置き換え、対応する候補解を用いて、元の参照とスワップされた参照の多様なペアリングを構築する。
驚いたことに、信頼性の低下は、幅広い審査モデルにまたがるスワップされた基準の下で急速に減少する。
我々は、この脆弱性は、裁判官がパラメトリック知識を過度に信頼していることによって引き起こされていることを実証的に示す。
最後に, この障害は, LLM-as-a-judge評価の基本的な制限と, 提案基準の厳格な遵守を強制する参照ベースのプロトコルのモチベーションを強調して, 共通のプロンプトベースの緩和戦略の下で継続することを示す。
関連論文リスト
- Query-Document Dense Vectors for LLM Relevance Judgment Bias Analysis [4.719505127252616]
大規模言語モデル (LLM) は、情報検索 (IR) 評価収集のための関連評価器として使われている。
我々は、LLMが平均的にどれだけ良いかを単に理解するのではなく、関係を判断する際に体系的な誤りを犯すかどうかを理解することを目的としている。
クエリドキュメント(Q-D)ペアを結合意味空間に埋め込むクラスタリングベースのフレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-05T03:02:33Z) - Topic-Specific Classifiers are Better Relevance Judges than Prompted LLMs [34.14678608130442]
未判断の文書問題は、情報検索におけるテストコレクションの再利用可能性にとって重要な障害である。
個別のLoRA重み適応でMonoT5を微調整することにより、トピック固有の関連分類器を訓練する。
トピックごとの最初の128の判断は、モデルの互換性を改善するのに十分である。
論文 参考訳(メタデータ) (2025-10-06T09:38:13Z) - Do Before You Judge: Self-Reference as a Pathway to Better LLM Evaluation [22.409170147732464]
LLM-as-Judgeフレームワークは、AI評価でますます人気がある。
モデルの生成と判断能力の関係に関する研究結果は相容れないままである。
本稿では,モデル自身の回答を参照として活用する自己参照型評価戦略を提案する。
論文 参考訳(メタデータ) (2025-09-24T08:32:45Z) - LLM-as-a-Judge: Rapid Evaluation of Legal Document Recommendation for Retrieval-Augmented Generation [40.06592175227558]
本稿では,法的な文脈における検索・拡張生成システムの評価に対する原則的アプローチについて検討する。
我々は、クリッペンドルフのαのような従来の合意メトリクスが、AIシステム評価の典型的な歪んだ分布に誤解をもたらす可能性があることを発見した。
本研究は,法的な応用によって要求される精度を維持するための,スケーラブルで費用効果の高い評価への道筋を示唆する。
論文 参考訳(メタデータ) (2025-09-15T19:20:21Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。
DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。
DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文 参考訳(メタデータ) (2025-03-11T15:29:55Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。