論文の概要: Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2603.11027v1
- Date: Wed, 11 Mar 2026 17:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.089783
- Title: Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge
- Title(参考訳): 合意のイリュージョンを超えて:LLM-as-a-Judgeにおける表面ヒューリスティックスから知識を中心とした評価へ
- Authors: Mingyang Song, Mao Zheng, Chenning Xu,
- Abstract要約: モデルレベルの合意は、脆弱なサンプルレベルの合意をマスクすることを示す。
また,ドメイン知識に基づく評価ごみを動的に生成することで,より有意義な評価が得られることを示す。
これらの結果から, 評価多元論は, 一般的な基準に頼らず, 専門家の知識によって動的に富むべきであることが示唆された。
- 参考スコア(独自算出の注目度): 18.04153868078285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paradigm of LLM-as-a-judge relies on a critical assumption, namely that high inter-evaluator agreement indicates reliable and objective evaluation. We present two complementary findings that challenge this assumption. \textbf{First}, we demonstrate that this consensus is frequently illusory. We identify and formalize \textbf{Evaluation Illusion}, a phenomenon where LLM judges generate sophisticated critiques yet anchor scores on shared surface heuristics rather than substantive quality. Through a large-scale study of 105,600 evaluation instances (32 LLMs $\times$ 3 frontier judges $\times$ 100 tasks $\times$ 11 temperatures), we show that model-level agreement (Spearman $ρ= 0.99$) masks fragile sample-level agreement (Pearson $\bar{r} = 0.72$; absolute agreement ICC $= 0.67$), that merely sharing rubric structure restores 62\% of total agreement, and that high-quality outputs paradoxically receive the \textit{least} consistent evaluations. \textbf{Second}, we demonstrate that dynamically generating evaluation rubrics grounded in domain knowledge produces more meaningful assessment. We introduce MERG (Metacognitive Enhanced Rubric Generation), a knowledge-driven rubric generation framework whose domain-selective effects confirm this. Agreement \textit{increases} in codified domains (Education +22\%, Academic +27\%) where knowledge anchors evaluators on shared standards, while it decreases in subjective domains where genuine evaluative pluralism emerges. These findings suggest that evaluation rubrics should be dynamically enriched with expert knowledge rather than relying on generic criteria, with implications for reward modeling in RLAIF.
- Abstract(参考訳): LLM-as-a-judgeのパラダイムは、高い評価者間合意が信頼性と客観的評価を示すという批判的な仮定に依存している。
この仮定に挑戦する2つの相補的な結果を示す。
textbf{First} では、このコンセンサスはしばしばイラストリであることを示す。
我々は, LLM審査員が, 実体的品質ではなく, 共有表面ヒューリスティックスのスコアを固定しながら, 洗練された批判を発生させる現象である, textbf{Evaluation Illusion} を同定し, 定式化する。
105,600 個の評価インスタンス (32 LLMs $\times$ 3 Frontier judges $\times$ 100 task $\times$ 11 temperature) を通じて、モデルレベルの合意 (Spearman $ρ= 0.99$) マスク 脆弱なサンプルレベルの合意 (Pearson $\bar{r} = 0.72$; absolute agreement ICC $= 0.67$) が、ルーブリック構造を共有するだけで62 %の合意が回復し、高品質な出力がパラドックス的に \textit{least} の一貫した評価を受けることを示した。
ドメイン知識に根ざした評価ルーブを動的に生成することで,より有意義な評価が得られることを示す。
本稿では,知識駆動型ルーブリック生成フレームワークであるMERG(Metacognitive Enhanced Rubric Generation)を紹介する。
知識が共有標準で評価器を固定する符号化された領域(教育+22\%、学術+27\%)におけるコンセンサス \textit{increases} は、真に評価的多元主義が出現する主観的領域において減少する。
以上の結果から,RLAIF の報酬モデルにおいて,評価ルーブリックは一般的な基準に頼らず,専門家の知識によって動的にリッチ化されるべきであることが示唆された。
関連論文リスト
- Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research [39.146761527401424]
長大な言語モデル(LLM)を,長大な面接で表される3つの人的価値を識別するタスクで評価する。
それらのアウトプットを専門家のアノテーションと比較し、専門家に対するパフォーマンスパターンと不確実性パターンの両方を分析します。
論文 参考訳(メタデータ) (2026-03-05T07:38:37Z) - JADE: Expert-Grounded Dynamic Evaluation for Open-Ended Professional Tasks [14.14645345504797]
本稿ではエージェントAIのための2層評価フレームワークであるJADEを提案する。
レイヤ1は、専門家の知識を事前に定義された評価スキルのセットとしてエンコードする。
レイヤ2は、多様な推論戦略を柔軟に評価するために、レポート固有のクレームレベルの評価を行う。
論文 参考訳(メタデータ) (2026-02-06T08:26:09Z) - Evaluating Large Language Models for Abstract Evaluation Tasks: An Empirical Study [1.412242138378466]
大規模言語モデル(LLM)は、要求を処理し、テキストを生成することができるが、学術的コンテンツを評価する可能性にはさらなる調査が必要である。
本研究では,ChatGPT-5,Gemini-3-Pro,Claude-Sonnet-4.5の相互比較およびヒトレビュアーに対する抽象概念の整合性と信頼性について検討した。
論文 参考訳(メタデータ) (2026-01-09T15:21:17Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。