論文の概要: When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment
- arxiv url: http://arxiv.org/abs/2602.17170v1
- Date: Thu, 19 Feb 2026 08:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.810765
- Title: When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment
- Title(参考訳): LLM審査員がスコアを下げる時 - 関連性評価のオーバーレイを探る
- Authors: Chuting Yu, Hang Li, Joel Mackenzie, Teerapong Leelanupab,
- Abstract要約: 大型言語モデル(LLM)は、人間の判断のためのプロキシとして使用できる。
モデルは、真に基礎となる情報要求を満たさない通路に、インフレータブルな関連度スコアを常に割り当てていることを示す。
実験の結果,LSMによる相対性判定は通路長や表面の語彙的手がかりに非常に敏感であることが示唆された。
- 参考スコア(独自算出の注目度): 8.788401981407981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human relevance assessment is time-consuming and cognitively intensive, limiting the scalability of Information Retrieval evaluation. This has led to growing interest in using large language models (LLMs) as proxies for human judges. However, it remains an open question whether LLM-based relevance judgments are reliable, stable, and rigorous enough to match humans for relevance assessment. In this work, we conduct a systematic study of overrating behavior in LLM-based relevance judgments across model backbones, evaluation paradigms (pointwise and pairwise), and passage modification strategies. We show that models consistently assign inflated relevance scores -- often with high confidence -- to passages that do not genuinely satisfy the underlying information need, revealing a system-wide bias rather than random fluctuations in judgment. Furthermore, controlled experiments show that LLM-based relevance judgments can be highly sensitive to passage length and surface-level lexical cues. These results raise concerns about the usage of LLMs as drop-in replacements for human relevance assessors, and highlight the urgent need for careful diagnostic evaluation frameworks when applying LLMs for relevance assessments. Our code and results are publicly available.
- Abstract(参考訳): 人間の関連性評価は時間と認知に重きを置いており、情報検索評価のスケーラビリティを制限している。
これにより、人間の裁判官のプロキシとして大きな言語モデル(LLM)を使うことへの関心が高まっている。
しかし、LLMに基づく関連判断が人間に適合するほど信頼性があり、安定しており、厳密であるかどうかには疑問が残る。
本研究では, モデルバックボーン, 評価パラダイム(ポイントワイド, ペアワイド) および通過修正戦略におけるLCMに基づく関連判断におけるオーバーレイト行動の体系的研究を行う。
モデルは、不規則な判断のゆらぎではなく、システム全体の偏見を明らかにすることによって、基礎となる情報のニーズを真に満たさない通路に、インフレドレバレンススコア(しばしば高い信頼度)を常に割り当てることを示します。
さらに制御された実験により,LSMに基づく相対性判定は,通過長や表面レベルの語彙的手がかりに非常に敏感であることが示された。
これらの結果から,人間関係評価装置のドロップイン代替手段としてのLSMの使用が懸念されるとともに,LCMを関連評価に適用する場合の注意深い診断評価フレームワークの必要性が浮き彫りとなった。
私たちのコードと結果は公開されています。
関連論文リスト
- Query-Document Dense Vectors for LLM Relevance Judgment Bias Analysis [4.719505127252616]
大規模言語モデル (LLM) は、情報検索 (IR) 評価収集のための関連評価器として使われている。
我々は、LLMが平均的にどれだけ良いかを単に理解するのではなく、関係を判断する際に体系的な誤りを犯すかどうかを理解することを目的としている。
クエリドキュメント(Q-D)ペアを結合意味空間に埋め込むクラスタリングベースのフレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-05T03:02:33Z) - On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。
本研究では,LLMの生成能力と評価能力の関係について検討した。
モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:33:24Z) - Real-World Summarization: When Evaluation Reaches Its Limits [1.4197924572122094]
従来のメトリクス、トレーニング可能なメソッド、LCM-as-a-judgeアプローチを比較します。
その結果、単語のような単純なメトリクスは、人間の判断と驚くほどよく重なることがわかった。
実世界のビジネスへの影響を分析すると、誤った情報やチェック不可能な情報が最大のリスクを生んでいることが分かる。
論文 参考訳(メタデータ) (2025-07-15T17:23:56Z) - LLM-Evaluation Tropes: Perspectives on the Validity of LLM-Evaluations [29.031539043555362]
大規模言語モデル (LLM) は情報システムを評価するためにますます使われている。
近年の研究では、LLMに基づく評価は人間の判断とよく一致することが示唆されている。
本稿では,LCM評価者が誤って成功を示すシナリオについて検討する。
論文 参考訳(メタデータ) (2025-04-27T02:14:21Z) - LLM-based relevance assessment still can't replace human relevance assessment [12.829823535454505]
近年の研究では、情報検索における関連性評価のための大規模言語モデル(LLM)が、人間の判断に匹敵する評価をもたらすことが示唆されている。
Upadhyayらは、LLMに基づく関連性評価は、TRECスタイルの評価における従来の人間関連性評価を完全に置き換えることができると主張している。
本稿ではこの主張を批判的に検証し、この結論の妥当性を損なう実践的・理論的制約を強調した。
論文 参考訳(メタデータ) (2024-12-22T20:45:15Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。