論文の概要: Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems
- arxiv url: http://arxiv.org/abs/2511.14136v1
- Date: Tue, 18 Nov 2025 04:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.940033
- Title: Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems
- Title(参考訳): Beyond Accuracy: エンタープライズエージェントAIシステムを評価するための多次元フレームワーク
- Authors: Sushant Mehta,
- Abstract要約: 現在のエージェントAIベンチマークは、タスク完了の正確さを主に評価している。
コスト制御評価の欠如は、同様の精度で50倍のコスト変動をもたらす。
エージェントのパフォーマンスが60%(単一実行)から25%(8ラン一貫性)に低下する不適切な信頼性評価
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current agentic AI benchmarks predominantly evaluate task completion accuracy, while overlooking critical enterprise requirements such as cost-efficiency, reliability, and operational stability. Through systematic analysis of 12 main benchmarks and empirical evaluation of state-of-the-art agents, we identify three fundamental limitations: (1) absence of cost-controlled evaluation leading to 50x cost variations for similar precision, (2) inadequate reliability assessment where agent performance drops from 60\% (single run) to 25\% (8-run consistency), and (3) missing multidimensional metrics for security, latency, and policy compliance. We propose \textbf{CLEAR} (Cost, Latency, Efficacy, Assurance, Reliability), a holistic evaluation framework specifically designed for enterprise deployment. Evaluation of six leading agents on 300 enterprise tasks demonstrates that optimizing for accuracy alone yields agents 4.4-10.8x more expensive than cost-aware alternatives with comparable performance. Expert evaluation (N=15) confirms that CLEAR better predicts production success (correlation $ρ=0.83$) compared to accuracy-only evaluation ($ρ=0.41$).
- Abstract(参考訳): 現在のエージェントAIベンチマークは、コスト効率、信頼性、運用安定性といった重要なエンタープライズ要件を見越しながら、タスク完了の正確さを主に評価している。
12のベンチマークの体系的分析と最先端エージェントの実証的評価により,(1)同様の精度で50倍のコスト変動につながるコスト制御評価の欠如,(2)エージェントのパフォーマンスが60倍から25倍に低下する不適切な信頼性評価,(3)セキュリティ,レイテンシ,ポリシーコンプライアンスのための多次元指標の欠如,の3つの基本的な限界が明らかになった。
本稿では,企業展開に特化した総合評価フレームワークであるtextbf{CLEAR} (Cost, Latency, Efficacy, Assurance, Reliability)を提案する。
300のエンタープライズタスクにおける6つの主要なエージェントの評価は、精度のみを最適化することでエージェントの4.4-10.8倍のコストがかかることを示した。
専門家評価(N=15)では、CLEARは精度のみの評価(ρ=0.41$)と比較して生産成功を予測している。
関連論文リスト
- Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Towards a Standard, Enterprise-Relevant Agentic AI Benchmark: Lessons from 5.5 billion tokens' worth of agentic AI evaluations [0.0]
汚染抵抗とエージェント評価の両方に対処する企業中心のベンチマークである,上座エージェントメリット指数(KAMI)v0.1を提示する。
従来のベンチマークのランキングは、実用的なエージェント性能を十分に予測できないことを実証する。
また、コストパフォーマンストレードオフ、モデル固有の行動パターン、およびトークン効率に対する推論能力の影響について考察する。
論文 参考訳(メタデータ) (2025-11-11T09:46:25Z) - CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent [46.41047559759938]
CUA(Computer-using Agent)は、オペレーティングシステムやソフトウェアインターフェースとの自然なインタラクションを通じてタスクの完了を可能にするエージェントである。
Reward モデルは有望な代替手段を提供するが、CUA 評価におけるその有効性はほとんど未検討である。
CUARewardBenchは4つの重要なコントリビューションから構成される。
論文 参考訳(メタデータ) (2025-10-21T12:53:40Z) - AI Agents-as-Judge: Automated Assessment of Accuracy, Consistency, Completeness and Clarity for Enterprise Documents [0.0]
本研究では,AIエージェントを用いた高度に構造化された企業文書の自動レビューのためのモジュール型マルチエージェントシステムを提案する。
LangChain、CrewAI、TruLens、Guidanceといった現代的なオーケストレーションツールを使用して、文書のセクション単位での評価を可能にする。
99%の情報一貫性(人間の場合は92%)を実現し、エラーとバイアス率を半減させ、1文書あたりの平均レビュー時間を30分から2.5分に短縮する。
論文 参考訳(メタデータ) (2025-06-23T17:46:15Z) - Evaluating VisualRAG: Quantifying Cross-Modal Performance in Enterprise Document Understanding [5.861057085203687]
クロスモーダルな入力の統合の信頼性を測定するための,体系的,定量的なベンチマークフレームワークを導入する。
本手法は,技術指標とユーザ中心信頼度との間に定量的な関係を確立する。
この作業は、重要なエンタープライズアプリケーションのためのマルチモーダルRAGの信頼性を定量化し、強化するための厳格なフレームワークを提供することによって、責任あるAIデプロイメントを前進させる。
論文 参考訳(メタデータ) (2025-06-19T18:05:00Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception [0.4124847249415279]
安全クリティカルな認識システムは、安全を維持するために確実な不確実性定量化と原則化された禁制機構を必要とする。
本稿では,統計的に保証された不確実性推定を提供するとともに,リスクの高いシナリオにおいて選択的な予測を可能にする,新しいデュアルスレッド整合化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-11T04:45:31Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。