論文の概要: Agreement Metrics for LLM-as-Judge Evaluation: What to Report and Why
- arxiv url: http://arxiv.org/abs/2606.00093v1
- Date: Mon, 25 May 2026 07:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:27.883072
- Title: Agreement Metrics for LLM-as-Judge Evaluation: What to Report and Why
- Title(参考訳): LLM-as-Judge評価のための合意基準:報告と理由
- Authors: Delip Rao, Chris Callison-Burch,
- Abstract要約: 最近のLLM-as-judge論文24件の調査では、判定尺度、ネクタイハンドリング、不正出力、禁断ハンドリングに絡み合ったメトリックの選択が見つかった。
Pearson's $r$、Spearman's $、Kendall's $_b$、phi係数$$、Matthews correlation Coefficientはすべて1つの数に還元される。
- 参考スコア(独自算出の注目度): 34.429649156970015
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Validating an LLM judge against human annotations usually means reporting several agreement statistics: accuracy, precision, recall, $F_1$, Cohen's $κ$, and one or more rank correlations. A survey of 24 recent LLM-as-judge papers finds metric choice entangled with the judgment scale, tie handling, invalid outputs, and abstention handling, and those choices rarely stated. For binary criteria -- the common case in rubric-based evaluation, where each criterion is graded MET or UNMET -- most of the reported numbers are redundant: Pearson's $r$, Spearman's $ρ$, Kendall's $τ_b$, the phi coefficient $φ$, and the Matthews Correlation Coefficient all reduce to a single number on non-degenerate binary data, so reporting several of them only creates an illusion of corroborating evidence. Cohen's $κ$ is the one agreement coefficient that adds information: it shares $φ$'s numerator but normalizes differently, and the gap between them measures how far the judge's positive-label rate has drifted from the human's. We then trace what changes when a judge may abstain with a CANNOT_ASSESS verdict: the three common ways of handling abstentions are not interchangeable preprocessing choices but answer different questions, and they break the binary equivalences. The same equivalences reappear, up to a negligible finite-sample correction, for multi-judge ensembles scored with Fleiss' $κ$ or Krippendorff's $α$. We close with a reporting checklist that names the judgment scale, the abstention and tie handling mode, coverage, the confusion matrix, and the aggregation level alongside any scalar agreement coefficient.
- Abstract(参考訳): 人間のアノテーションに対するLCMの判断を検証することは、通常、精度、精度、リコール、$F_1$、Cohenの$κ$、および1つ以上のランク相関といった、いくつかの合意統計を報告することを意味する。
最近のLLM-as-judge論文24件の調査では、判断尺度、タイハンドリング、不正アウトプット、禁忌ハンドリングに絡み合ったメートル法の選択が見出され、これらの選択はめったに述べられていない。
Pearson's $r$, Spearman's $ρ$, Kendall's $τ_b$, phi coefficient $φ$, and the Matthews correlation Coefficient all reduce to a single number on non-degenerate binary data。
Cohenの$κ$は情報を追加する1つの合意係数である:$φ$'s numeratorを共有するが、異なる正規化を行う。
次に、判事がCANNOT_ASSESSの判決を棄却した場合の変化をトレースする: 棄権を扱う3つの一般的な方法は、交換可能な事前処理の選択ではなく、異なる質問に答え、二項同値を破る。
Fleiss の$κ$ あるいは Krippendorff の$α$ のマルチジャッジアンサンブルに対して、無視できる有限サンプル補正まで、同じ値が再び現れる。
我々は,判断尺度,棄却・拘束処理モード,カバレッジ,混乱行列,アグリゲーションレベルを任意のスカラー一致係数とともに指定した報告チェックリストをクローズする。
関連論文リスト
- Instance-Optimal Estimation with Multiple LLM Judges on a Budget [84.31744861038106]
我々は、この問題を*予算付きヘテロスケダティックなマルチジャッジ推定*として定式化する。
K$のプロンプト-レスポンスペア、J$の既知のコストと未知のクエリ-ジャッジ分散が与えられた場合、目標は、$ell_p$-errorを最小化しながら、有界スコアベクトルを推定することである。
EST-IVWEは,予算の低次項までのオラクルIVWEレートと一致していることを示す。
論文 参考訳(メタデータ) (2026-05-22T08:26:08Z) - BiAxisAudit: A Novel Framework to Evaluate LLM Bias Across Prompt Sensitivity and Response-Layer Divergence [22.315546054051143]
大規模言語モデルのバイアス監査は、EU AI Actなどのガバナンスフレームワーク内で運用されている。
このプロトコルでは、各バイアススコアを2つの軸上での信頼性推定とともに報告する。
論文 参考訳(メタデータ) (2026-05-09T16:26:49Z) - Efficient Detection of Bad Benchmark Items with Novel Scalability Coefficients [3.058685580689604]
異方性回帰に基づく非パラメトリックな拡張係数の新たなファミリを導入する。
中心的な寄与は符号付きイソトニック$R2$であり、これは説明可能な1つの項目における分散の最大比率を測定する。
符号付き等方性$R2$は単調予測器の中で極端であることを示す。
論文 参考訳(メタデータ) (2026-03-26T03:47:49Z) - C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning [0.6138671548064355]
大型言語モデル (LLMs) は、チェーン・オブ・ソート (CoT) 推論の判断としてますます使われている。
C2-Faithは、因果性(各ステップは以前の文脈から論理的に従うのか?
二つの因果検出,因果ステップの定位,カバレッジスコアの3つの課題において,フロンティア判事の評価を行った。
論文 参考訳(メタデータ) (2026-03-05T13:36:47Z) - Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models [55.94503936470247]
大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
論文 参考訳(メタデータ) (2026-01-29T21:26:50Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。