論文の概要: Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems
- arxiv url: http://arxiv.org/abs/2512.11150v1
- Date: Thu, 11 Dec 2025 22:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.590541
- Title: Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems
- Title(参考訳): 因果判定: LLM システムのキャリブレーション・サロゲート測定値
- Authors: Eddie Landesberg,
- Abstract要約: 未校正スコアは選好を逆転させることができ、未校正スコアに対するナイーブな信頼区間は、ほぼ0%のカバレッジを獲得し、重要度重み付け推定器は、限られた重複の下で崩壊する。
3つの障害を全て解決するフレームワークであるCausal Judge Evaluationを紹介します。
- 参考スコア(独自算出の注目度): 0.29465623430708904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-judge evaluation has become the de facto standard for scaling model assessment, but the practice is statistically unsound: uncalibrated scores can invert preferences, naive confidence intervals on uncalibrated scores achieve near-0% coverage, and importance-weighted estimators collapse under limited overlap despite high effective sample size (ESS). We introduce Causal Judge Evaluation (CJE), a framework that fixes all three failures. On n=4,961 Chatbot Arena prompts (after filtering from 5k), CJE achieves 99% pairwise ranking accuracy at full sample size (94% averaged across configurations), matching oracle quality, at 14x lower cost (for ranking 5 policies) by calibrating a 16x cheaper judge on just 5% oracle labels (~250 labels). CJE combines three components: (i) AutoCal-R, reward calibration via mean-preserving isotonic regression; (ii) SIMCal-W, weight stabilization via stacking of S-monotone candidates; and (iii) Oracle-Uncertainty Aware (OUA) inference that propagates calibration uncertainty into confidence intervals. We formalize the Coverage-Limited Efficiency (CLE) diagnostic, which explains why IPS-style estimators fail even when ESS exceeds 90%: the logger rarely visits regions where target policies concentrate. Key findings: SNIPS inverts rankings even with reward calibration (38% pairwise, negative Kendall's tau) due to weight instability; calibrated IPS remains near-random (47%) despite weight stabilization, consistent with CLE; OUA improves coverage from near-0% to ~86% (Direct) and ~96% (stacked-DR), where naive intervals severely under-cover.
- Abstract(参考訳): LLM-as-judge評価は、モデル評価をスケールするデファクトスタンダードとなっているが、その実践は統計的に不正確である: 未校正スコアは、選好を逆転させ、未校正スコアに対するナイーブな信頼区間は、高い有効サンプルサイズ(ESS)にもかかわらず、限定的な重み付けで崩壊する。
3つの障害を全て解決するフレームワークであるCausal Judge Evaluation (CJE)を紹介します。
n=4,961 Chatbot Arenaのプロンプト(5kからフィルタリングした後)では、CJEは全サンプルサイズ(構成平均で94%)で99%のペアのランク精度を達成し、オラクルの品質にマッチする。
CJEは3つのコンポーネントを組み合わせています。
i)AutoCal-R,平均保存等調回帰による報酬校正
(二)SIMCal-W、S-モノトン候補の積み重ねによる重量安定化、及び
三 校正の不確実性を信頼区間に伝播させるOracle-Uncertainty Aware (OUA)推論
CLE(Coverage-Limited Efficiency)診断を形式化し、ESSが90%を超える場合でもIPSスタイルの推定器がフェールする理由を説明する。
主な発見:SNIPSは、重量不安定性による報酬のキャリブレーション(38%、負のKendall's tau)でもランクを逆転し、CLEと整合性があるにもかかわらず、キャリブレーションされたIPSは、ほぼランダム(47%)であり、OUAは、約0%から約86%(Direct)、約96%(stacked-DR)までカバー範囲を改善している。
関連論文リスト
- Learning Robust Representations for Malicious Content Detection via Contrastive Sampling and Uncertainty Estimation [0.0]
不確実性コントラストフレームワーク(UCF)は、不確実性を考慮したコントラスト損失、適応温度スケーリング、自己注意誘導型LSTMエンコーダを統合し、ノイズおよび不均衡条件下での分類を改善する。
UCFはサンプルの信頼度に基づいて対照的な重み付けを動的に調整し、正のアンカーを用いたトレーニングを安定化し、温度パラメータをバッチレベルの可変性に適応させる。
論文 参考訳(メタデータ) (2025-12-01T22:06:06Z) - Learnable Conformal Prediction with Context-Aware Nonconformity Functions for Robotic Planning and Perception [4.694504497452662]
Learnable Conformal Predictionは、固定スコアを軽量なニューラル関数に置き換えて、コンテキスト認識の不確実性セットを生成する。
CPの理論的保証を維持しつつ、予測セットのサイズを18%減らし、検出間隔を52%減らし、経路計画の安全性を72%から91%に改善し、オーバーヘッドを最小限に抑えている。
ハードウェア評価では、LCPは1%未満のメモリと15.9%の推論オーバーヘッドを追加したが、検出タスクでは39 FPSを維持し、アンサンブルの7.4倍のエネルギー効率を保っている。
論文 参考訳(メタデータ) (2025-09-26T06:44:58Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Uncertainty-aware Long-tailed Weights Model the Utility of Pseudo-labels for Semi-supervised Learning [50.868594148443215]
本研究では,不確かさを意識したアンサンブル構造(UES)を提案する。
UESは軽量でアーキテクチャに依存しないため、分類や回帰を含む様々なコンピュータビジョンタスクに容易に拡張できる。
論文 参考訳(メタデータ) (2025-03-13T02:21:04Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - BEA: Revisiting anchor-based object detection DNN using Budding Ensemble
Architecture [8.736601342033431]
Budding Ensemble Architecture(BEA)は、アンカーベースのオブジェクト検出モデルのための、新しい縮小アンサンブルアーキテクチャである。
BEAにおける損失関数は、信頼性スコアの校正を改善し、不確かさを低減させる。
論文 参考訳(メタデータ) (2023-09-14T21:54:23Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。