論文の概要: Proper Scoring Rules for Agentic Uncertainty Quantification
- arxiv url: http://arxiv.org/abs/2605.24756v1
- Date: Sat, 23 May 2026 22:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.366966
- Title: Proper Scoring Rules for Agentic Uncertainty Quantification
- Title(参考訳): エージェント不確かさ定量のための適切なスコーリング規則
- Authors: Suresh Raghu, Satwik Pandey, Shashwat Pandey,
- Abstract要約: Trajectory Proper Score (TPS) は、厳密に適切なトラジェクトリレベルスコアルールの予測非依存のファミリーである。
軌道ECEは分解能が弱いが、スカラー化された軌道ブライアは崩壊したスカラーのみを付与する。
- 参考スコア(独自算出の注目度): 0.038379177968040606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-model agents increasingly emit uncertainty signals throughout a trajectory, but existing agentic UQ evaluations often conflate ranking usefulness with probabilistic truthfulness. AUROC, AUPRC, risk-coverage, Trajectory ECE, and scalarized trajectory scores evaluate discrimination, binwise calibration, or collapsed summaries, but do not strictly elicit the full prefix-conditioned success-probability trace $q_t = P^π(Y=1 | H_t)$. Building on prequential proper scoring, we introduce the Trajectory Proper Score (TPS), a predictor-agnostic family of strictly proper trajectory-level scoring rules for any per-step uncertainty signal calibrated into a probability of eventual success. We prove that TPS strictly elicits the success-probability process under complete observation, within the chosen score family and weight schedule. We extend the construction to administratively censored trajectories by projecting the complete-data score onto the observable stopped prefix, yielding an exact $q_Z$-weighted reduced score and a tractable approximation when $q_Z$ is unestimated. We further show that common trajectory evaluators target weaker objects than the full prefix-conditioned probability process: Trajectory ECE is resolution-blind, while scalarized Trajectory Brier elicits only the collapsed scalar, not the full trace. Experiments on StrategyQA, Tau2-Bench, HotpotQA, and WebShop show that these theoretical distinctions are operationally visible: probability recalibration can substantially change TPS while leaving rank metrics nearly unchanged, and the tractable censored approximation can change the verdict relative to complete-only evaluation.
- Abstract(参考訳): 言語モデルエージェントは、軌跡全体を通して不確実な信号を出力する傾向にあるが、既存のエージェントUQ評価では、ランキングの有用性を確率論的真偽と説明することが多い。
AUROC, AUPRC, risk-coverage, Trajectory ECE, and scalarized trajectory scores evaluate discrimination, binwise calibration, or collapse summaries, but not not means the full prefix-conditioned success-probability trace $q_t = P^π(Y=1 | H_t)$.
逐次的適切なスコアに基づいて、ステップごとの不確実性信号に対する厳密な適切な軌道レベルスコアルールの予測ファミリであるトラジェクトリ・プロパースコア(TPS)を導入し、最終的な成功の確率に調整する。
我々は、TPSが、選択したスコアファミリーとウェイトスケジュールの中で、完全な観察下での成功確率過程を厳密に引き起こすことを証明した。
我々は、全データスコアを観測可能な停止プレフィックスに投影し、正確な$q_Z$-weighted reduce scoreと、$q_Z$が未見積の場合の引き込み可能な近似を与えることにより、管理的に検閲されたトラジェクトリに拡張する。
さらに、一般的な軌道評価器は、完全なプレフィックス条件付き確率過程よりも弱い対象をターゲットにしていることを示す: 軌道ECEは分解能盲であり、スカラー化された軌道Brierは、完全なトレースではなく、崩壊したスカラーのみを付与する。
StrategyQA、Tau2-Bench、HotpotQA、およびWebShopに関する実験では、これらの理論的区別が運用上可視であることが示されている。
関連論文リスト
- When Bits Break Recourse: Counterfactual-Faithful Quantization [0.6999740786886536]
我々は、妥当性、コスト、方向安定性を通じて、量子化の下での対実感度を定式化する。
本稿では, 量子化器パラメータと混合精度ビット割り当てを訓練し, 対物行動の保存を行うCFQを提案する。
論文 参考訳(メタデータ) (2026-05-16T21:19:31Z) - \mathsf{VISTA}: Decentralized Machine Learning in Adversary Dominated Environments [21.69919643934826]
分散機械学習は、評価などのアウトソーシング計算を信頼できないワーカノードに頼っていることが多い。
本稿では, 相互に整合性がある場合にのみ, 報告を受理し, 報奨するインセンティブ指向の枠組みを通じて, 敵に支配される設定について検討する。
本稿では,最適化履歴を用いた適応アルゴリズムであるmathsfVISTAを提案する。
論文 参考訳(メタデータ) (2026-05-08T15:07:15Z) - Beyond Completion: Probing Cumulative State Tracking to Predict LLM Agent Performance [9.771590610969918]
WMF-AM(Working Memory Fidelity-Active Manipulation)を紹介する。
その結果,20種類のオープンウェイトモデル (0.5B-35B, 13ファミリー) で10タスク・エージェント・バッテリを発売した。
論文 参考訳(メタデータ) (2026-03-28T17:25:11Z) - Probability-Entropy Calibration: An Elastic Indicator for Adaptive Fine-tuning [55.2818264614932]
RankTunerは確率エントロピーキャリブレーション信号、相対ランクインジケータを導入し、予測分布の下で接地トラストークンのランクと期待ランクを比較する。
逆インジケータはトークン単位の相対尺度として使用され、微調整の目的を再重み付けし、真に未学習のトークンを更新する。
論文 参考訳(メタデータ) (2026-02-02T07:27:19Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - U-Calibration: Forecasting for an Unknown Agent [29.3181385170725]
単一のスコアリングルールに対する予測を最適化することは、すべてのエージェントに対して低い後悔を保証できないことを示す。
予測列の最大後悔度に匹敵するU校正と呼ばれる予測を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-06-30T23:05:26Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - Evaluating probabilistic classifiers: Reliability diagrams and score
decompositions revisited [68.8204255655161]
確率的に統計的に一貫性があり、最適に結合し、再現可能な信頼性図を自動生成するCORP手法を導入する。
コーパスは非パラメトリックアイソトニック回帰に基づいており、プール・アジャセント・ヴァイオレータ(PAV)アルゴリズムによって実装されている。
論文 参考訳(メタデータ) (2020-08-07T08:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。