論文の概要: Are We on the Right Way to Assessing LLM-as-a-Judge?
- arxiv url: http://arxiv.org/abs/2512.16041v1
- Date: Wed, 17 Dec 2025 23:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.859326
- Title: Are We on the Right Way to Assessing LLM-as-a-Judge?
- Title(参考訳): LLM-as-a-Judgeを評価する正しい方法か?
- Authors: Yuanning Feng, Sinan Wang, Zhengxiang Cheng, Yao Wan, Dongping Chen,
- Abstract要約: 人間のアノテーションを必要とせずにLCM審査員の質を評価する新しい評価スイートであるSageを紹介する。
合理的選択理論の公理に触発されたセージは、LLM-as-a-Judgeを測定するための2つの新しいレンズ(局所的な自己整合性と大域的な論理的整合性)を導入した。
Sage に基づいて,現在最先端の LLM は,スコアリングとペアワイズの両方において,審査員として機能する場合に,重大な信頼性上の問題があることを明らかにした。
- 参考スコア(独自算出の注目度): 16.32248269615178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-Judge has been widely adopted as an evaluation method and served as supervised rewards in model training. However, existing benchmarks for LLM-as-a-Judge are mainly relying on human-annotated ground truth, which introduces human bias that undermines the assessment of reliability and imposes scalability constraints. To overcome these limitations, we introduce Sage, a novel evaluation suite that assesses the quality of LLM judges without necessitating any human annotation. Inspired by axioms of rational choice theory, Sage introduces two new lenses for measuring LLM-as-a-Judge: local self-consistency (pair-wise preference stability) and global logical consistency (transitivity across a full set of preferences). We curate a dataset of 650 questions by combining structured benchmark problems with real-world user queries. Our experiments demonstrate both the stability of our metrics and their high correlation with supervised benchmarks like LLMBar and RewardBench2, confirming Sage's reliability as an evaluation suite for the robustness and accuracy of LLM-as-a-Judge. Based on Sage, we reveal that current state-of-the-art LLMs exhibit significant reliability problems when acting as judges in both scoring and pairwise settings; even the top-performing models, Gemini-2.5-Pro and GPT-5, fail to maintain consistent preferences in nearly a quarter of difficult cases. We attribute this to a new phenomenon called situational preference, which explains why explicit rubrics or criteria can help the model judge consistently across answer pairs. Our further analysis shows that finetuned LLM-as-a-Judge is a feasible method to boost performance, and the panel-based judge as well as deep reasoning can enhance the judging consistency. We also find substantial inconsistency in human judgments, which indicates that human annotation may not be a reliable gold standard.
- Abstract(参考訳): LLM-as-a-Judgeは評価手法として広く採用されており、モデルトレーニングにおける教師付き報酬として機能している。
しかし、既存のLCM-as-a-Judgeのベンチマークは、信頼性の評価を損なう人間のバイアスを導入し、スケーラビリティの制約を課す人間に注釈付けされた真実に依存している。
これらの制約を克服するために,人間のアノテーションを必要とせずにLLM審査員の質を評価する新しい評価スイートであるSageを紹介した。
合理的選択理論の公理に触発されたセージは、LLM-as-a-Judgeを測定するための2つの新しいレンズ、すなわち局所自己整合性(pair-wise preference stability)と大域的論理一貫性(transitivity across a full set of preferences)を導入する。
構造化されたベンチマーク問題と実世界のユーザクエリを組み合わせることで、650の質問のデータセットをキュレートする。
LLMBar や RewardBench2 などのベンチマークと高い相関性を示すとともに,Sage の信頼性を LLM-as-a-Judge の堅牢性と精度評価スイートとして確認した。
Sageをベースとして、現在最先端のLCMは、スコアリングとペアワイズの両方で審査員として機能する場合に重大な信頼性上の問題があることが判明した。
我々はこれを、状況的嗜好と呼ばれる新しい現象によるものとみなし、なぜ明示的な曖昧さや基準が、モデルが解答対を一貫して判断するのに役立つのかを説明する。
さらに分析した結果, 微調整LDM-as-a-Judgeは性能向上のための実現可能な手法であり, パネル式判定と深い推論により, 判定の整合性を高めることができることがわかった。
また、人間の判断にはかなりの矛盾が見られ、これは人間のアノテーションが信頼できる金の標準になっていないことを示唆している。
関連論文リスト
- Who Judges the Judge? LLM Jury-on-Demand: Building Trustworthy LLM Evaluation Systems [2.9141470183751674]
スケーラブルでコンテキスト対応な評価のための動的学習ベースのフレームワークを提案する。
本手法は,LLM審査員が人間専門家といつ一致するかを評価するために,信頼度予測器のセットを訓練する。
要約およびRAGベンチマーク実験により,我々の動的陪審法は,単一判定基準と静的判定基準の両方よりも,人間の判断との相関が著しく高いことを示した。
論文 参考訳(メタデータ) (2025-12-01T15:26:20Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - An Empirical Analysis of Uncertainty in Large Language Model Evaluations [28.297464655099034]
我々は2つの異なる評価条件で9つのLLM評価器を用いた実験を行った。
LLM評価器はモデルファミリやサイズによって様々な不確実性を示す。
推論やポストトレーニングのときでも、特別なプロンプト戦略を採用することで、評価の不確実性をある程度軽減できることがわかった。
論文 参考訳(メタデータ) (2025-02-15T07:45:20Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - Can LLM be a Personalized Judge? [24.858529542496367]
LLM-as-a-Personalized-Judgeの信頼性を検討した。
LLM-as-a-Personalized-Judgeの直接適用は,従来想定されていたよりも信頼性が低いことが示唆された。
本研究では,LLM-as-a-Personalized-Judgeパイプラインに不確実性推定を導入し,不確実性判定に対する信頼度を低く表現する。
論文 参考訳(メタデータ) (2024-06-17T15:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。