論文の概要: Towards a Science of AI Agent Reliability
- arxiv url: http://arxiv.org/abs/2602.16666v1
- Date: Wed, 18 Feb 2026 18:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.675631
- Title: Towards a Science of AI Agent Reliability
- Title(参考訳): AIエージェントの信頼性の科学に向けて
- Authors: Stephan Rabanser, Sayash Kapoor, Peter Kirgis, Kangheng Liu, Saiteja Utpala, Arvind Narayanan,
- Abstract要約: AIエージェントは、重要なタスクを実行するためにますますデプロイされる。
標準ベンチマークにおける精度の上昇は急速な進歩を示唆する一方で、多くのエージェントが実際に失敗し続けている。
エージェントの信頼性を4つの重要な次元(一貫性、堅牢性、予測可能性、安全性)に沿って分解する12のメトリクスを提案する。
- 参考スコア(独自算出の注目度): 9.570634569436535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are increasingly deployed to execute important tasks. While rising accuracy scores on standard benchmarks suggest rapid progress, many agents still continue to fail in practice. This discrepancy highlights a fundamental limitation of current evaluations: compressing agent behavior into a single success metric obscures critical operational flaws. Notably, it ignores whether agents behave consistently across runs, withstand perturbations, fail predictably, or have bounded error severity. Grounded in safety-critical engineering, we provide a holistic performance profile by proposing twelve concrete metrics that decompose agent reliability along four key dimensions: consistency, robustness, predictability, and safety. Evaluating 14 agentic models across two complementary benchmarks, we find that recent capability gains have only yielded small improvements in reliability. By exposing these persistent limitations, our metrics complement traditional evaluations while offering tools for reasoning about how agents perform, degrade, and fail.
- Abstract(参考訳): AIエージェントは、重要なタスクを実行するためにますますデプロイされる。
標準ベンチマークにおける精度の上昇は急速な進歩を示唆する一方で、多くのエージェントが実際に失敗し続けている。
この不一致は、現在の評価の基本的な制限を強調している: エージェントの振る舞いを単一の成功指標に圧縮することは、重要な運用上の欠陥を曖昧にする。
特に、エージェントが実行中に一貫して振る舞うこと、摂動に耐えること、予測可能な失敗、あるいは境界エラーの重大性を持つことを無視する。
安全クリティカルエンジニアリングを基盤として,エージェントの信頼性を4つの重要な側面 – 一貫性,堅牢性,予測可能性,安全性 – に沿って分解する,12の具体的な指標を提案することで,総合的なパフォーマンスプロファイルを提供する。
2つの相補的なベンチマークで14のエージェントモデルを評価すると、最近の能力向上は信頼性をわずかに改善しただけであることがわかった。
これらの永続的な制限を公開することで、当社のメトリクスは従来の評価を補完するとともに、エージェントのパフォーマンス、劣化、失敗の理由を推論するためのツールを提供します。
関連論文リスト
- Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety [2.7030665672026846]
大規模言語モデル(LLM)エージェントは、現実の結果を伴う複雑な環境でますます運用される。
信頼性に欠ける状況からLLMエージェントが認識・撤退するための、シンプルで効果的な行動機構として「クイッティング」を用いることを提案する。
論文 参考訳(メタデータ) (2025-10-18T13:22:19Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - AI Agents That Matter [11.794931453828974]
AIエージェントはエキサイティングな新しい研究方向であり、エージェント開発はベンチマークによって駆動される。
他のメトリクスに注意せずに正確性に焦点が当てられている。
モデルと下流の開発者のベンチマークの必要性が混じり合っている。
多くのエージェントベンチマークはホールトアウトセットが不十分であり、時にはまったくない。
論文 参考訳(メタデータ) (2024-07-01T17:48:14Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。