論文の概要: Distribution-Free Uncertainty Quantification for Continuous AI Agent Evaluation
- arxiv url: http://arxiv.org/abs/2605.19779v1
- Date: Tue, 19 May 2026 12:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.336131
- Title: Distribution-Free Uncertainty Quantification for Continuous AI Agent Evaluation
- Title(参考訳): 連続AIエージェント評価のための分布自由不確実性定量化
- Authors: Yuxuan Gao, Megan Wang, Yi Ling Yu,
- Abstract要約: 我々は、連続AIエージェント評価に分割共形予測と適応共形推論を適用した。
その結果, 年齢ごとの条件付きカバレッジは, 名目レベルを中心に, 十分に集中していることがわかった。
円形制御されたバリデーションにより、フレームワークはベンチマークを超えて信号をキャプチャする。
- 参考スコア(独自算出の注目度): 1.2299000423193074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We adapt split conformal prediction and adaptive conformal inference (ACI) to continuous AI agent evaluation, providing distribution-free coverage guarantees for forecasted quality scores. Conformal intervals achieve calibration error below 0.02 across all nominal levels at the 24h horizon, while ACI correctly widens intervals by 35% following agent releases then reconverges. We further develop compositional uncertainty bounds for multi-agent pipelines (validated via simulation across inter-stage correlations rho in [-0.5, 0.9]), a conformal abstention rule for pairwise rankings with controlled false-ranking rate, and FDR-corrected abstention for leaderboard-scale multiple testing. Evaluating 50 agents via 18 real-time signals collected hourly, we show that per-agent conditional coverage is well-concentrated around the nominal level (mean 80.4%, 90% of agents within [72%, 90%]), and that cross-source sentiment divergence predicts ranking instability (r=0.64, p<0.01). A circularity-controlled validation confirms the framework captures signal beyond benchmarks (rho_s=0.52, p<0.01, n=35). Code and data are released under CC BY 4.0.
- Abstract(参考訳): 我々は,AIエージェント評価に分割共形予測と適応共形推論(ACI)を適用し,予測された品質スコアに対する分布自由カバレッジ保証を提供する。
等間隔は、24時間水平線における全ての名目レベルにわたって0.02以下の校正誤差を達成し、ACIはエージェントリリース後に正確に35%の間隔を拡大し、再収束する。
さらに,マルチエージェントパイプラインに対する構成不確実性境界([-0.5, 0.9]における段階間相関rhoのシミュレーションによる検証),制御された偽ランクのペアランクの共形禁制,リーダーボードスケールの多重テストにおけるFDR補正禁制などを開発した。
時間毎に収集した18個のリアルタイム信号を介して50個のエージェントを評価したところ、エージェントごとの条件付きカバレッジは名目レベル(平均80.4%、[72%, 90%]内のエージェントの90%)で十分に集中しており、ソース間の感情差はランクの不安定性(r=0.64, p<0.01)を予測する。
円度制御による検証により、このフレームワークはベンチマークを超えて信号をキャプチャする(rho_s=0.52, p<0.01, n=35)。
コードとデータはCC BY 4.0でリリースされる。
関連論文リスト
- Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback [1.2362187555287152]
ファイナンスにおける予測評価は、ポイント予測エラーに基づく集計精度測定と予測精度テストに依存している。
本稿では,中間決定プロセス自体を評価することによって,精度試験を補完する行動予測評価手法を提案する。
論文 参考訳(メタデータ) (2026-05-07T06:31:34Z) - PAIR-CI: Calibrated Conditional Independence Testing for Causal Discovery with Incomplete Data [0.0]
PAIR-CIは非パラメトリック条件独立(CI)テストであり,複数の命令を直接推論手順に統合することによりキャリブレーションを回復する。
確率的に一貫した分散推定器は、クロスバリデーションと多重計算による不確かさを共同で説明する。
論文 参考訳(メタデータ) (2026-05-06T12:34:37Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting [0.0]
リスク制御による選択的予測のために,9つの有限サンプル境界ファミリーの包括的アブレーションを提案する。
我々の主要な理論的貢献はTransfer-Informed Betting (TIB) であり、ソースドメインのリスクプロファイルを使用してWSR富裕層プロセスをウォームスタートさせます。
論文 参考訳(メタデータ) (2026-03-09T20:25:18Z) - Distribution-informed Efficient Conformal Prediction for Full Ranking [22.380815981596403]
不確実性の定量化は、現実世界のアプリケーションにおけるランキングモデルの安全な配置に不可欠である。
最近の研究は、完全ランク付けシナリオにおける共形予測を用いた厳密なソリューションを提供し、テスト項目の絶対ランクの予測セットを構築することを目的としている。
非整合性スコアの正確な分布を導出して効率的な予測セットを生成する分散インフォームド・コンフォーマルランキング(DCR)を提案する。
論文 参考訳(メタデータ) (2026-01-30T16:16:44Z) - Distribution-informed Online Conformal Prediction [53.674678995825666]
更新ルールに基礎となるデータパターンを組み込んだオンラインコンフォメーション予測アルゴリズムである Conformal Optimistic Prediction (COP) を提案する。
COPは予測可能なパターンが存在する場合により厳密な予測セットを生成し、見積もりが不正確な場合でも有効なカバレッジ保証を保持する。
我々は,COPが有効なカバレッジを実現し,他のベースラインよりも短い予測間隔を構築できることを証明した。
論文 参考訳(メタデータ) (2025-12-08T17:51:49Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Conformal Prediction Sets with Improved Conditional Coverage using Trust Scores [52.92618442300405]
有限サンプルにおいて、正確に分布のない条件付きカバレッジを達成することは不可能である。
本稿では,最も重要となる範囲を対象とするコンフォメーション予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-17T12:01:56Z) - Certified Error Control of Candidate Set Pruning for Two-Stage Relevance
Ranking [57.42241521034744]
本稿では、妥当性ランキングのための候補セットプルーニングの認証エラー制御の概念を提案する。
提案手法は,第1段階から抽出した候補集合を抽出し,第2段階の復位速度を向上する。
論文 参考訳(メタデータ) (2022-05-19T16:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。