論文の概要: Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels
- arxiv url: http://arxiv.org/abs/2605.29800v1
- Date: Thu, 28 May 2026 11:48:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.211847
- Title: Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels
- Title(参考訳): 9人の審査員と2人の効果的な投票: 関連エラーがLCM評価パネルを弱めている
- Authors: Guneet Kohli,
- Abstract要約: LLM-as-a-judgeパネルは複数のモデルからの投票を集計する。
私たちは、その信頼性が独立投票の理想にどの程度劣るかを定量化します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-as-a-judge panels aggregate votes from multiple models, with the expectation that diverse models yield more reliable evaluations. We develop a framework to measure the true informational value of such panels and quantify how far their reliability falls short of the independent-voting ideal. Testing a panel of 9 frontier LLMs from 7 model families on three natural language inference datasets (each with 100 human annotations per item), we find that the 9 judges effectively provide only about 2 independent votes' worth of information. Roughly three-quarters of the panel's nominal independence is lost because the models make the same mistakes on the same items. The consequences are stark: the panel's actual accuracy falls 8-22 percentage points short of what independent voting would achieve, and the best single judge matches or outperforms the full panel across all conditions. Neither adding more judges nor using smarter aggregation algorithms helps -- established methods close at most 11% of this gap, even with access to the correct answers. We quantify these findings using the Kish effective sample size (n_eff) and a Condorcet null model, and show the deficit is robust across prompt variants, temperatures, chain-of-thought reasoning, and a pairwise preference task (RewardBench). The bottleneck is correlated judges, not the aggregation algorithm, implying that scaling up panels cannot substitute for genuinely independent evaluation.
- Abstract(参考訳): LLM-as-a-judgeパネルは複数のモデルからの投票を集計し、多様なモデルがより信頼性の高い評価を得ることを期待している。
我々は,そのようなパネルの真の情報価値を測定し,その信頼性が独立投票の理想にどの程度劣るかを定量化する枠組みを開発する。
7つのモデルファミリーの9つのフロンティアLCMのパネルを3つの自然言語推論データセット(それぞれ100の人文アノテーションを持つ)でテストしたところ、9人の審査員は事実上2つの独立した投票価値の情報しか提供していないことがわかった。
パネルの独立性のおよそ4分の3は、モデルが同じアイテムで同じ間違いを犯しているため失われる。
パネルの実際の精度は、独立投票が達成するものよりも8-22ポイント低く、最高の1人の審査員が全ての条件で全パネルにマッチするか、上回っている。
審査員を増やしたり、よりスマートなアグリゲーションアルゴリズムを使うことは、正しい回答にアクセスしても、このギャップの少なくとも11%は確立されたメソッドを閉じるのに役に立たない。
Kish 実効サンプルサイズ (n_eff) と Condorcet null モデルを用いてこれらの知見を定量化し, 即時変種, 温度, チェーン・オブ・プリーティング, 相互選好タスク (RewardBench) において, 欠陥が堅牢であることを示す。
このボトルネックはアグリゲーションアルゴリズムではなく、相関した判断であり、パネルのスケールアップが真の独立した評価に取って代わることができないことを示唆している。
関連論文リスト
- Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty? [59.923111838399144]
本稿では,視覚的審美性ベンチマーク (VAB) を提案する。
VABには400のタスクと1,195のイメージが芸術、写真、イラストに含まれており、ラベルはタスクごとに10人の独立した専門家審査員のコンセンサスから導かれる。
最強のシステムは、人間の専門家が達成した68.9%よりもはるかに低い26.5%のタスクで、候補順の3つのランダムな順で、最良の画像と最悪の画像の両方を正しく識別する。
論文 参考訳(メタデータ) (2026-05-12T19:33:28Z) - How Sensitive Are Safety Benchmarks to Judge Configuration Choices? [5.94231111588812]
HarmBenchのような安全ベンチマークは、モデル応答を有害または安全と分類する判断に頼っている。
判定モデルと判定プロンプトの組み合わせは,一般に一定の実装の詳細として扱われる。
審査員モデルの定式化により, 評価された有害応答率を最大24.2%にシフトした。
論文 参考訳(メタデータ) (2026-04-27T05:59:59Z) - Judging the Judges: A Systematic Evaluation of Bias Mitigation Strategies in LLM-as-a-Judge Pipelines [0.0]
4つのプロバイダファミリーの5つの審査モデルに対して,9つのデバイアスング戦略を比較した。
スタイルバイアスは支配的バイアス(全モデルで0.76-0.92)であり、位置バイアス(=0.04)をはるかに超えている。
統合予算戦略により、Claude Sonnet 4 は+11.2 pp (p 0.0001) に大幅に改善され、他のモデルの方向性に好意的な傾向が見られた。
論文 参考訳(メタデータ) (2026-04-25T07:18:30Z) - MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning [85.05204262206296]
大きな推論モデル(LRM)は、長い思考の連鎖を生成することによって、強い性能を達成するが、その推論コストは高い。
小型言語モデル(SLM)はより効率的であるが、多段階推論タスクでは困難である。
本研究では, LRM が SLM を選択的かつ簡潔にガイドする推論時協調手法である MentorCollab を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:58:16Z) - Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models [55.94503936470247]
大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
論文 参考訳(メタデータ) (2026-01-29T21:26:50Z) - Evaluative Fingerprints: Stable and Systematic Differences in LLM Evaluator Behavior [0.0]
審査員は一貫性があるが、互いに一致していない。
評価は3,240件を超え、中間合意はほぼゼロに近い。
審査員の平均得点は、審査員の実際の値に該当しない合成判定を生成する。
論文 参考訳(メタデータ) (2026-01-08T17:02:22Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。