論文の概要: The Geometry of LLM-as-Judge: Why Inter-LLM Consensus Is Not Human Alignment
- arxiv url: http://arxiv.org/abs/2606.03043v1
- Date: Tue, 02 Jun 2026 02:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.697251
- Title: The Geometry of LLM-as-Judge: Why Inter-LLM Consensus Is Not Human Alignment
- Title(参考訳): LLM-as-Judgeの幾何学
- Authors: Sourabrata Mukherjee, Hamna Hamna, Kalika Bali, Sunayana Sitaram,
- Abstract要約: LMs-as-judgesは現在標準となっているが、審査員は互いに強く同意する一方で、人間にしか同意しない。
標準LLM-as-judgeスタック上の4つの幾何量を測定することで、共有信号や共有バイアスを反映するかどうかを検証する。
- 参考スコア(独自算出の注目度): 20.417527629839835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LMs-as-judges are now standard, yet judges agree strongly with one another while agreeing only weakly with humans. We test whether this reflects shared signal or shared bias by measuring four geometric quantities on the standard LLM-as-judge stack across four community-built Indic datasets, eight Indic languages, and 41 LLM judges: score spread, effective rank, principal angle to the human subspace, and stacked correlations among judges and humans, all with bootstrap confidence intervals. On subjective rubrics, judges use less than half the human score range ($σ_J / σ_H \approx 0.3$--$0.5$). Their evaluation axis is nearly orthogonal to the human one and noticeably further from humans than humans are from each other ($87^\circ$--$89^\circ$ versus $78^\circ$--$81^\circ$). Inter-LLM agreement exceeds LLM--human agreement ($r_{LL} \approx 0.35$ versus $r_{LH} \approx 0.27$--$0.32$). On a rubric with a verifiable factual answer, the same diagnostics fall back into the human range (axis $58.5^\circ$; $r_{LH} = 0.519$). Fine-tuning and preference optimization recover spread ($0.32 \rightarrow 1.08$) but barely move the axis (still $87^\circ$--$88^\circ$). Only post-hoc calibration on a small human-anchored set improves all four community-health rubrics together, placing a calibrated 24B Indic judge ($r = 0.184$) ahead of GPT-5.5 ($r = 0.123$), yet still short of human reliability (human-human $r = 0.474$ on the verifiable rubric). We argue that inter-LLM agreement should be considered evidence of human alignment only when a direct geometric check on the judge's score subspace passes; otherwise, the consensus reflects agreement within a collapsed subspace.
- Abstract(参考訳): LMs-as-judgesは現在標準となっているが、審査員は互いに強く同意する一方で、人間にしか同意しない。
我々は,4つのコミュニティ構築したIndicデータセット,8つのIndic言語,41のLLM判断器の標準LLM-as-judgeスタック上の4つの幾何量を測定することで,共有信号や共有バイアスを反映するかどうかを検証した。
主観的ルーリックでは、審査員は人間のスコア範囲の半分以下(σ_J / σ_H \approx 0.3$-$0.5$)で、評価軸は人間とほぼ直交しており、人間と人間との差が顕著に大きい(87^\circ$-$89^\circ$対7,8^\circ$--$81^\circ$)。
LLM 間の合意は LLM- Human agreement(r_{LL} \approx 0.35$ 対 $r_{LH} \approx 0.27$-$0.32$ )を超える。
事実が検証可能なルーリックでは、同じ診断が人間の範囲(約5,8.5^\circ$; $r_{LH} = 0.519$)に後退する。
微調整と選好最適化はスプレッド(0.32 \rightarrow 1.08$)を回復するが、軸をほとんど動かさない(それでも8.7^\circ$--88^\circ$)。
小型のヒトアンコールセットでのポストホックキャリブレーションは、GPT-5.5(r = 0.123$)に先立って24B Indic judge(r = 0.184$)を校正するが、人間の信頼性には乏しい(検証可能なルーリックでは、人間-ヒト$r = 0.474$)。
我々は、LLM間の合意は、審査員のスコア部分空間の幾何学的チェックが通過した場合のみ、人間のアライメントの証拠と見なされるべきであり、そうでなければ、合意は崩壊したサブスペース内の合意を反映する。
関連論文リスト
- A Two-Phase Stability Study of LLM Judges and Bar Council Examiners on Thai Bar-Exam Free-Form Essays [7.580441504706575]
ルーブリックが両方の軸を処方する15個の細胞のうち、29個のラッカーは全てタイトなバンドに収束する。
残りの5つの細胞は、決定的な法定引用を省略する正しい最終回答の格付けを規定していないが、ヒトのパネルは2つのコヒーレントな読解を分割する。
LLM-panel $$は、両方の読みのバランスの取れた再生ではなく、多数読みの体系的な収束を反映している。
論文 参考訳(メタデータ) (2026-05-25T09:58:28Z) - Instance-Optimal Estimation with Multiple LLM Judges on a Budget [84.31744861038106]
我々は、この問題を*予算付きヘテロスケダティックなマルチジャッジ推定*として定式化する。
K$のプロンプト-レスポンスペア、J$の既知のコストと未知のクエリ-ジャッジ分散が与えられた場合、目標は、$ell_p$-errorを最小化しながら、有界スコアベクトルを推定することである。
EST-IVWEは,予算の低次項までのオラクルIVWEレートと一致していることを示す。
論文 参考訳(メタデータ) (2026-05-22T08:26:08Z) - Two Ways to De-Bias an LLM-as-a-Judge: A Continuous-Score Comparison of Hierarchical Bayesian Calibration and Neural-ODE Score Transport [0.0]
このマッピングをどのようにモデル化すべきかについて、反対の見解をとる2つの修正子を比較した。
これらの知見を,運用デプロイメントの明確な決定ルールに変換する。
論文 参考訳(メタデータ) (2026-05-09T23:55:02Z) - When Style Similarity Scores Fail: Diagnosing Raw CSD Cosine in Artist-Style Evaluation [0.1923695645342299]
本稿では,コーパス内,プロトタイプフリー,しきい値フリーの診断を行う識別ギャップについて紹介する。
1799年のアートワーク、91アーティストのパブリックドメインコーパスでは、生のCSDコサインは2つのレベルで23/91ドルのアーティストに対して負のポイント推定ギャップを生じる。
CLIP-ViT-L/14、SigLIP-large、DINOv2-Largeのクロスバックチェックは、同じ共有トラフィック障害パターンを再現する。
論文 参考訳(メタデータ) (2026-05-09T16:15:13Z) - Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations [4.032680910442999]
LLM-as-judge フレームワークは NLG の自動評価にますます利用されているが、そのインスタンスごとの信頼性はよく分かっていない。
SummEvalに応用した2段階の診断ツールキットについて述べる。 $textbf(1)$ 推移性解析により,低集合的違反率で隠蔽されるインプット毎の不整合の広範性を明らかにする。
4人の審査員と4つの基準で、どちらの診断も一致している。
論文 参考訳(メタデータ) (2026-04-16T17:58:21Z) - Do We Still Need Humans in the Loop? Comparing Human and LLM Annotation in Active Learning for Hostility Detection [68.37351671559675]
アクティブな学習は、無視可能なコストで短いプロンプトから何千ものインスタンスに注釈を付けることができる。
LLMラベルはALループ内で人間のラベルを置き換えることができ、ALはコーパス全体を一度にラベル付けできるときに必要か?
277,902人のドイツの政治的TikTokコメントの新しいデータセットについて、両方の質問を調査した。
論文 参考訳(メタデータ) (2026-04-15T14:10:58Z) - Reinforcement Learning from Multi-Source Imperfect Preferences: Best-of-Both-Regimes Regret [71.69884486156359]
我々は, 累積的不完全化予算を用いて, エンフルティソースの不完全性選好からエピソードRLを考察した。
我々は,最良な登録行動を示す,後悔$tildeO(sqrtK/M+)$の統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-20T19:34:53Z) - ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation [29.718851249656172]
大規模言語モデル(LLM)は、一貫性、スケーラビリティ、コスト効率の面で魅力的な代替手段である。
ACORNは3500のフリーテキストの説明とアスペクトワイドの品質評価のデータセットである。
論文 参考訳(メタデータ) (2024-05-08T05:36:52Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Toward Adversarial Robustness via Semi-supervised Robust Training [93.36310070269643]
アドリラルな例は、ディープニューラルネットワーク(DNN)に対する深刻な脅威であることが示されている。
R_stand$ と $R_rob$ の2つの異なるリスクを共同で最小化することで、新しい防御手法であるロバストトレーニング(RT)を提案する。
論文 参考訳(メタデータ) (2020-03-16T02:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。