論文の概要: E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing
- arxiv url: http://arxiv.org/abs/2512.03109v1
- Date: Tue, 02 Dec 2025 05:59:18 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:17.630159
- Title: E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing
- Title(参考訳): E-valuator:シークエンシャル仮説テストによる信頼性エージェント検証
- Authors: Shuvom Sadhuka, Drew Prinster, Clara Fannjiang, Gabriele Scalia, Aviv Regev, Hanchen Wang,
- Abstract要約: ブラックボックス検証器のスコアを偽アラームレートの証明可能な制御で決定ルールに変換する方法であるe-valuatorを導入する。
評価者は、エージェントの軌道のすべてのステップで統計的に有効であるシーケンシャルな仮説テストを開発するために、プロセスからのツールに基づいて構築される。
E-valuatorは6つのデータセットと3つのエージェントをまたいだ他の戦略よりも高い統計的パワーとより良い誤報率制御を提供することを示す。
- 参考スコア(独自算出の注目度): 7.984665398116918
- License:
- Abstract: Agentic AI systems execute a sequence of actions, such as reasoning steps or tool calls, in response to a user prompt. To evaluate the success of their trajectories, researchers have developed verifiers, such as LLM judges and process-reward models, to score the quality of each action in an agent's trajectory. Although these heuristic scores can be informative, there are no guarantees of correctness when used to decide whether an agent will yield a successful output. Here, we introduce e-valuator, a method to convert any black-box verifier score into a decision rule with provable control of false alarm rates. We frame the problem of distinguishing successful trajectories (that is, a sequence of actions that will lead to a correct response to the user's prompt) and unsuccessful trajectories as a sequential hypothesis testing problem. E-valuator builds on tools from e-processes to develop a sequential hypothesis test that remains statistically valid at every step of an agent's trajectory, enabling online monitoring of agents over arbitrarily long sequences of actions. Empirically, we demonstrate that e-valuator provides greater statistical power and better false alarm rate control than other strategies across six datasets and three agents. We additionally show that e-valuator can be used for to quickly terminate problematic trajectories and save tokens. Together, e-valuator provides a lightweight, model-agnostic framework that converts verifier heuristics into decisions rules with statistical guarantees, enabling the deployment of more reliable agentic systems.
- Abstract(参考訳): エージェントAIシステムは、ユーザのプロンプトに応じて、ステップの推論やツールコールなどの一連のアクションを実行する。
LLM判定器やプロセス・リワードモデルなどの検証器を開発し, エージェントの軌道における各動作の質を評価する。
これらのヒューリスティックスコアは情報的ではあるが、エージェントが出力を成功させるかどうかを決定する際には正確性を保証する保証はない。
本稿では,ブラックボックス検証器のスコアを偽アラームレートの証明可能な制御が可能な決定規則に変換する方法であるe-valuatorを紹介する。
我々は、成功軌道(つまり、ユーザのプロンプトに正しい反応をもたらす一連のアクション)と、逐次仮説テスト問題として失敗軌道を区別する問題の枠組みを定式化する。
E-valuatorは、エージェントの軌道のすべてのステップで統計的に有効であるシーケンシャル仮説テストを開発するために、eプロセスからのツールに基づいて構築される。
実験により、e-valuatorは6つのデータセットと3つのエージェントにわたる他の戦略よりも、より統計力が高く、誤警報率の制御が優れていることを実証した。
さらに,問題となるトラジェクトリを迅速に終了し,トークンを保存するためにe-valuatorを使用できることを示す。
e-valuatorは、検証ヒューリスティックを統計的保証付き決定ルールに変換する軽量でモデルに依存しないフレームワークを提供し、より信頼性の高いエージェントシステムのデプロイを可能にする。
関連論文リスト
- Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - AgentGuard: Runtime Verification of AI Agents [1.14219428942199]
AgentGuardは、エージェントAIシステムの実行時検証のためのフレームワークである。
動的確率保証(Dynamic Probabilistic Assurance)と呼ばれる新しいパラダイムを通じて、継続的な量的保証を提供する。
論文 参考訳(メタデータ) (2025-09-28T13:08:50Z) - Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - Towards Robust Fact-Checking: A Multi-Agent System with Advanced Evidence Retrieval [1.515687944002438]
デジタル時代における誤報の急速な拡散は、世論に重大な課題をもたらす。
従来の人間主導のファクトチェック手法は信頼できるが、オンラインコンテンツの量と速度に苦慮している。
本稿では, 精度, 効率, 説明性を向上する自動ファクトチェックのための新しいマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-06-22T02:39:27Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。