論文の概要: Measuring Black-Box Confidence via Reasoning Trajectories: Geometry, Coverage, and Verbalization
- arxiv url: http://arxiv.org/abs/2605.06308v1
- Date: Thu, 07 May 2026 14:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.877455
- Title: Measuring Black-Box Confidence via Reasoning Trajectories: Geometry, Coverage, and Verbalization
- Title(参考訳): 推論軌道によるブラックボックス信頼度の測定:幾何学・被覆・言語化
- Authors: Marc Boubnovski Martell, Josefa Lia Stoisser, Kaspar Märtens, Jialin Yu, Robert Kitchen, Philip Torr, Jesper Ferkinghoff-Borg,
- Abstract要約: 信頼度推定は、テキストのみのAPIを通じて、チェーン・オブ・ソート(CoT)推論の安全なデプロイを可能にする。
本研究では,CoTをスライドウインドウ軌道として埋め込んだブラックボックストラジェクトリ信頼スコアを提案し,その収束度を外部応答アンカーに測定する。
- 参考スコア(独自算出の注目度): 19.932655936670564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable confidence estimation enables safe deployment of chain-of-thought (CoT) reasoning through text-only APIs. Yet the dominant black-box baseline, self-consistency over K samples, is linearly expensive and ignores the geometry of the trace. We propose a black-box trajectory-confidence score: we embed a CoT as a sliding-window trajectory and measure its convergence to external answer anchors with a one-parameter softmax. The method needs no logits, hidden states, or supervised calibrators. Across six (benchmark, reasoner) settings on MedQA-USMLE, GPQA Diamond, and MMLU-Pro with Gemini 3.1 Pro and Claude Sonnet 4.6, fusing this score with coverage and verbalized-confidence channels at K=4 yields Pareto improvements over self-consistency at K=8 in 6/6 settings (median AUC 0.78 vs 0.71, deltaAUC=+0.075). A fixed-pick control (+0.060) and E5 cross-embedder replication rule out answer switching and single-vendor artifacts. Geometry peaks in the penultimate window across benchmarks and reasoners, and inverts at the terminal window on GPQA Diamond. Three unscaffolded regimes separate black-box confidence into a judge-mediated Coverage prior (C), within-trace Geometry (G), and a conditional Verbalization channel (V). Across 18 benchmark x reasoner x proposer settings, C and G provide independent signal in 18/18 and 16/18, while V contributes residual signal in 6/18. Swapping the judge from GPT-5-mini to Claude Sonnet 4.6 leaves G-only AUC unchanged (|delta|<=0.013) and shifts C-only AUC by at most +/-0.02 (kappa=0.82). Fusion beats the best single channel in 17/18 settings (median AUC 0.78, max 0.92).
- Abstract(参考訳): 信頼性の高い信頼性推定は、テキストのみのAPIを通じて、チェーン・オブ・ソート(CoT)推論の安全なデプロイを可能にする。
しかし、Kサンプル上の自己整合性である支配的なブラックボックス基底線は線形に高価であり、トレースの幾何学を無視する。
我々は,CoTをスライドウインドウ軌道として埋め込み,その収束度を1パラメータソフトマックスで測定するブラックボックストラジェクトリ信頼スコアを提案する。
この方法は、ログ、隠された状態、または監督されたキャリブレータを必要としない。
MedQA-USMLE, GPQA Diamond, and MMLU-Pro with Gemini 3.1 Pro and Claude Sonnet 4.6の6つの設定(ベンチマーク、推論)で、このスコアをK=4でカバーし、言語化された信頼チャンネルと融合すると、6/6設定でK=8で自己整合性よりもパレートが向上する(中央値AUC 0.78 vs 0.71, deltaAUC=+0.075)。
固定ピン制御(+0.060)とE5クロスエンベッドダーレプリケーションは、応答切替とシングルベンダアーティファクトを除外する。
幾何はベンチマークと推論器をまたいだ最小ウィンドウでピークし、GPQAダイアモンドの終端ウィンドウで反転する。
3つの非散乱状態は、ブラックボックスの信頼度を、裁判官が媒介するカバー(C)、トラス内幾何(G)、条件付きバーバリゼーションチャネル(V)に分ける。
CとGは18/18と16/18で独立信号を提供し、Vは6/18で残留信号を提供する。
GPT-5-mini から Claude Sonnet 4.6 に判定を下すと、G のみの AUC (|delta|<=0.013) が変更され、C のみの AUC が最大+/-0.02 (kappa=0.82) にシフトする。
Fusionは17/18設定で最高のシングルチャネル(中央値AUC 0.78, max 0.92)を破る。
関連論文リスト
- Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using LLM Judges with Closed-Loop Reinforcement Learning Feedback [1.2362187555287152]
エージェントストック予測システムは、個々の品質が集約メトリクスによって隠された相互依存的な決定のシーケンスを作成する。
このギャップに対処する行動評価フレームワークを提案する。
検証期間に限られる3つの短い微調整サイクルは、2017-2025年の試験期間中に1日間のMAPEを0.61%から0.54%に減らした。
論文 参考訳(メタデータ) (2026-05-07T06:31:34Z) - The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - Calibrated Confidence Estimation for Tabular Question Answering [0.0]
ECE 0.35-0.64 に対して、テキスト QA では 0.10-0.15 が報告されている)。
摂動二分法に対する一貫した自己評価は、両方のベンチマークと4つの完全にカバーされたモデル間で複製される。
構造を意識した再校正による二次貢献は、標準的なポストホック法よりもAUROCをパーセンテージポイントで改善する。
論文 参考訳(メタデータ) (2026-04-14T09:16:53Z) - Black-Box Reliability Certification for AI Agents via Self-Consistency Sampling and Conformal Calibration [0.0]
信頼性レベル -- システムとタスクのペアあたりの1つの番号 -- で答えます。
自己整合性サンプリングは指数関数的に不確実性を減少させる。
共形キャリブレーションは、ターゲットレベルの1/(n+1)以内の正確性を保証する。
論文 参考訳(メタデータ) (2026-02-24T21:03:50Z) - Benchmarking IoT Time-Series AD with Event-Level Augmentations [34.864214444544565]
実世界の問題をシミュレートする統合されたイベントレベル拡張による評価プロトコルを提案する。
5つの公開異常データセット上で14の代表的なモデルを評価する。
論文 参考訳(メタデータ) (2026-02-17T09:45:44Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Operator-Theoretic Framework for Gradient-Free Federated Learning [34.77158092842152]
フェデレートされた学習は、不均一性、厳密なコミュニケーションと計算制限、そしてパフォーマンスを確保しながらプライバシに対処する必要がある。
我々は、$L2$-optimal の解を再生カーネルヒルベルト空間にマッピングする演算子理論フレームワークを提案する。
この空間内では、カーネルアフィンハルマシンの空間折り畳み特性を利用した効率的なカーネルマシンを設計する。
論文 参考訳(メタデータ) (2025-11-30T18:49:00Z) - Edge-aware baselines for ogbn-proteins in PyTorch Geometric: species-wise normalization, post-hoc calibration, and cost-accuracy trade-offs [45.88028371034407]
PyTorch Geometric におけるogbnタンパク質の再現可能なエッジ認識ベースラインを提案する。
最強のベースラインは、和ベースのエッジ・ツー・ノード機能を備えたGraphSAGEです。
レーベルごとの温度スケーリングとラベルごとの閾値は、AUCの変更を無視して、マイクロF1と期待キャリブレーション誤差(ECE)を大幅に改善する。
論文 参考訳(メタデータ) (2025-11-17T11:09:46Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。