論文の概要: VERDI: Single-Call Confidence Estimation for Verification-Based LLM Judges via Decomposed Inference
- arxiv url: http://arxiv.org/abs/2605.11334v1
- Date: Mon, 11 May 2026 23:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.479667
- Title: VERDI: Single-Call Confidence Estimation for Verification-Based LLM Judges via Decomposed Inference
- Title(参考訳): VERDI:分解推論による検証に基づくLCM裁判官の単一信頼度推定
- Authors: Jasmine Qi, Danylo Dantsev, Muyang Sun,
- Abstract要約: VERDI(verification-Decomposed Inference Inference)は、構造化された裁判官から信頼を抽出する手法である。
VERDIは各評価をサブチェックに分解し、3つの構造信号を導出する。
3つの公開ベンチマークで、VERDIはGPT-4.1-miniでAUROC 0.72-0.91、GPT-5.4-miniで0.66-0.80を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-as-Judge systems are widely deployed for automated evaluation, yet practitioners lack reliable methods to know when a judge's verdict should be trusted. Token log-probabilities, the standard post-hoc confidence signal, are unavailable for many commercial LLMs and, even when accessible, saturate above 0.999 with structured JSON output. We introduce VERDI (VERification-Decomposed Inference), a method that extracts confidence from the reasoning trace a structured judge already produces, with no additional inference calls. VERDI decomposes each verification-style evaluation into sub-checks and derives three structural signals: Step-Verdict Alignment, Claim-Level Margin, and Evidence Grounding Score. We combine them with Platt-scaled logistic regression. On three public benchmarks, VERDI achieves AUROC 0.72-0.91 on GPT-4.1-mini and 0.66-0.80 on GPT-5.4-mini. On Qwen3.5-4B/9B/27B, where answer-token logprobs are anti-calibrated (higher confidence on errors, AUROC 0.32-0.49), VERDI achieves 0.56-0.70. We additionally validate on a production system with eight rubrics (AUROC 0.73-0.88 on factual rubrics), demonstrate cross-model transfer (AUROC 0.66-0.69), and show that a 33M-parameter NLI (Natural Language Inference) model provides a scalable alternative to regex extraction.
- Abstract(参考訳): LLM-as-Judgeシステムは、自動評価のために広くデプロイされているが、裁判官の判断がいつ信頼できるかを知るための信頼性の高い方法が欠けている。
標準のポストホック信頼性信号であるToken log-probabilitiesは、多くの商用LCMでは利用できず、アクセス可能であったとしても、構造化されたJSON出力で0.999以上飽和している。
提案手法は,構造化された判断者が既に生成した推論トレースから信頼を抽出する手法であるVERDI(verification-Decomposed Inference)を導入し,追加の推論コールを伴わない。
VERDIは各検証スタイルの評価をサブチェックに分解し、ステップ検証アライメント(Step-Verdict Alignment)、クレームレベルマージン(Crim-Level Margin)、エビデンスグラウンドスコア(Evidence Grounding Score)という3つの構造信号を生成する。
それらをPlattスケールのロジスティック回帰と組み合わせる。
3つの公開ベンチマークで、VERDIはGPT-4.1-miniでAUROC 0.72-0.91、GPT-5.4-miniで0.66-0.80を達成した。
Qwen3.5-4B/9B/27Bでは、応答トークンの対校正が(エラーに対する高い信頼度、AUROC 0.32-0.49)、VERDIは0.56-0.70に達する。
さらに,8つのルーリック (AUROC 0.73-0.88 on factual rubrics), クロスモデル転送 (AUROC 0.66-0.69), および33Mパラメータ NLI (Natural Language Inference) モデルがレジェクス抽出のスケーラブルな代替手段を提供することを示す。
関連論文リスト
- When the Ruler is Broken: Parsing-Induced Suppression in LLM-Based Security Log Evaluation [0.0]
完全に機能的なモデルが完全に非機能なカテゴリに現れる可能性のある,無音で体系的な評価誤差のクラスを実証する。
SOC-Bench v0は、標準化された13のカテゴリの脅威分類、最小統計パワー要件、ファジィフィールド抽出仕様、および将来のSOC研究における特定の精度の歪みを防ぐための公開スコアリングスクリプトからなるベンチマークフレームワークである。
論文 参考訳(メタデータ) (2026-05-08T06:03:11Z) - What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models [0.0]
シングルプロンプト精度は、言語モデルをベンチマークする主要な方法であるが、重要な信頼性障害を見逃す可能性がある。
15モデルオープンウェイトコーパスの評価を行い,5つの分類と推論ベンチマークによる10のインストラクトモデルに着目した信頼性解析を行った。
まず、評価設計は結論を根本的に変えることができる。
第2に、信頼信号は脆弱である。MMLU-Proでは、各プライマリモデルは、その精度と同一行上のトークン確率信頼の両方よりもかなり高い信頼度を言語的に報告し、単一のプロンプト変種における単一のモデルに対して、動詞のパースレートが崩壊する可能性がある。
論文 参考訳(メタデータ) (2026-05-03T20:05:08Z) - The Surprising Universality of LLM Outputs: A Real-Time Verification Primitive [0.0]
CPUのみのスコアリングプリミティブはトークン当たり2.6マイクロ秒で動作する。
トークンのランク周波数分布は同じ2パラメータのMandelbrotランキング分布に収束する。
利用可能な場合にモデルログの確率で構成し、クローズドAPIで使用可能なランクオンリーモードに分解するシングルパススコアリングプリミティブを導出する。
論文 参考訳(メタデータ) (2026-04-28T13:35:31Z) - The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute [10.548368675645403]
CoRefineは、トークンのごく一部を使って競争精度を達成する自信誘導型自己精製法である。
コントローラはフルトレースの信頼性を消費し、停止するか、再検査するか、あるいは別のアプローチを試すかを決定する。
これをCoRefine-Treeに拡張します。これは、探索とエクスプロイトを適応的にバランスさせる、ハイブリッドなシーケンシャル並列型です。
論文 参考訳(メタデータ) (2026-02-09T17:44:41Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Sparse Conditional Hidden Markov Model for Weakly Supervised Named
Entity Recognition [68.68300358332156]
雑音ラベリング機能を評価するために,スパース条件付き隠れマルコフモデル(Sparse-CHMM)を提案する。
Sparse-CHMMは、3段階のトレーニングパイプラインで教師なし学習によって最適化される。
5つの包括的なデータセットで平均F1スコアが3.01向上する。
論文 参考訳(メタデータ) (2022-05-27T20:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。