論文の概要: Consistency as a Testable Property: Statistical Methods to Evaluate AI Agent Reliability
- arxiv url: http://arxiv.org/abs/2605.10516v1
- Date: Mon, 11 May 2026 13:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.830502
- Title: Consistency as a Testable Property: Statistical Methods to Evaluate AI Agent Reliability
- Title(参考訳): テスト可能なプロパティとしての一貫性:AIエージェントの信頼性を評価する統計的方法
- Authors: Harsh Raj, Niranjan Orkat, Suvrorup Mukherjee, Aritra Guha, Cheryl Flynn, Subhabrata Majumdar,
- Abstract要約: 本稿では,AIエージェント信頼性のための厳密な計測科学を確立する。
出力レベルの信頼性に$U$-statistics、軌道レベルの安定性にカーネルベースのメトリクスを活用することにより、エージェントを評価するための原則的なアプローチを提供する。
- 参考スコア(独自算出の注目度): 6.195988633460139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper establishes a rigorous measurement science for AI agent reliability, providing a foundational framework for quantifying consistency under semantically preserving perturbations. By leveraging $U$-statistics for output-level reliability and kernel-based metrics for trajectory-level stability, we offer a principled approach to evaluating agents across diverse operating conditions. Our proposal highlights the important distinction between the core capability and execution robustness of an agent, showing that minor task-level variations can induce complete strategy breakdowns despite the agent possessing the requisite knowledge for the task. We validate our framework through extensive experiments on three agentic benchmarks, demonstrating that trajectory-level consistency metrics provide far greater diagnostic sensitivity than traditional pass@1 rates. By providing the mathematical tools to isolate where and why agents deviate, we enable the identification and rectification of architectural concerns that hinder the deployment of agents in high-stakes, real-world environments.
- Abstract(参考訳): 本稿では,AIエージェント信頼性のための厳密な測定科学を確立し,摂動を意味的に保存する上での一貫性の定量化のための基礎的枠組みを提供する。
出力レベルの信頼性とカーネルベースのメトリクスのトラジェクトリレベルの安定性に$U$-statisticsを活用することで、さまざまな動作条件でエージェントを評価するための原則的なアプローチを提供する。
本提案では, エージェントのコア能力と実行堅牢性の重要な違いを強調し, タスクの必要な知識を持つエージェントに対して, タスクレベルの微妙な変動が, 完全な戦略ブレークダウンを誘発することを示す。
我々は3つのエージェントベンチマークの広範な実験を通じて、トラジェクトリレベルの整合性指標が従来のpass@1レートよりもはるかに高い診断感度を提供することを示す。
エージェントの場所と理由を分離する数学的ツールを提供することで、エージェントの配置を妨げるアーキテクチャ上の関心事の特定と修正を可能にします。
関連論文リスト
- Towards a Science of AI Agent Reliability [9.570634569436535]
AIエージェントは、重要なタスクを実行するためにますますデプロイされる。
標準ベンチマークにおける精度の上昇は急速な進歩を示唆する一方で、多くのエージェントが実際に失敗し続けている。
エージェントの信頼性を4つの重要な次元(一貫性、堅牢性、予測可能性、安全性)に沿って分解する12のメトリクスを提案する。
論文 参考訳(メタデータ) (2026-02-18T18:05:44Z) - TRACE: Trajectory-Aware Comprehensive Evaluation for Deep Research Agents [51.30998248590416]
Trajectory-Aware Comprehensive Evaluation (TRACE) は、問題解決の軌道全体を評価するフレームワークである。
私たちのコントリビューションには、TRACEフレームワーク、その新しいメトリクス、および制御可能な複雑さを伴うDeepResearch-Benchが含まれています。
論文 参考訳(メタデータ) (2026-02-05T13:28:57Z) - Agentic Confidence Calibration [67.50096917021521]
Holistic Trajectory (HTC)はAIエージェントの新しい診断フレームワークである。
HTCはキャリブレーションと差別の両方において、強力なベースラインを一貫して超えている。
HTCは、障害の背後にあるシグナルを明らかにすることによって、解釈可能性を提供する。
論文 参考訳(メタデータ) (2026-01-22T09:08:25Z) - Know your Trajectory -- Trustworthy Reinforcement Learning deployment through Importance-Based Trajectory Analysis [6.7842735984907465]
我々は、新しい状態重要度を定義・集約することで、軌道全体のランク付けを行う新しい枠組みを導入する。
本研究では,エージェント体験の異種集合から最適軌跡の同定に成功していることを示す。
標準のOpenAI Gym環境における実験により,提案する重要度指標が最適行動の同定に有効であることが検証された。
論文 参考訳(メタデータ) (2025-12-07T16:52:08Z) - Rethinking the Reliability of Multi-agent System: A Perspective from Byzantine Fault Tolerance [16.514747521376915]
大規模言語モデル (LLM) はマルチエージェントシステム (MAS) のメインブランチとして LLM ベースのエージェントを確立している。
本研究では, ビザンチン系耐故障性の観点から, LLM系エージェントの信頼性を検証し, 定量化する。
我々は、信頼度プローブに基づく重み付きビザンチン耐故障コンセンサス機構であるCP-WBFTを設計し、異なる位相でMASの安定性を向上させる。
論文 参考訳(メタデータ) (2025-11-13T15:20:12Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。