論文の概要: The Measurement Imbalance in Agentic AI Evaluation Undermines Industry Productivity Claims
- arxiv url: http://arxiv.org/abs/2506.02064v1
- Date: Sun, 01 Jun 2025 19:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.891272
- Title: The Measurement Imbalance in Agentic AI Evaluation Undermines Industry Productivity Claims
- Title(参考訳): エージェントAI評価における測定不均衡は産業生産性を損なう
- Authors: Kiana Jafari Meimandi, Gabriela Aránguiz-Dias, Grace Ra Kim, Lana Saadeddin, Mykel J. Kochenderfer,
- Abstract要約: 本稿では,エージェントAIシステムに対する現在の評価手法が,業界生産性の主張に疑問を呈するシステム的不均衡を示すことを示す。
84論文(2023年-2025年)の体系的レビューでは,技術指標が評価を支配している評価の不均衡が明らかとなった。
バランスの取れた4軸評価モデルを提案し、このパラダイムシフトをリードするようコミュニティに呼びかける。
- 参考スコア(独自算出の注目度): 29.710419283043574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As industry reports claim agentic AI systems deliver double-digit productivity gains and multi-trillion dollar economic potential, the validity of these claims has become critical for investment decisions, regulatory policy, and responsible technology adoption. However, this paper demonstrates that current evaluation practices for agentic AI systems exhibit a systemic imbalance that calls into question prevailing industry productivity claims. Our systematic review of 84 papers (2023--2025) reveals an evaluation imbalance where technical metrics dominate assessments (83%), while human-centered (30%), safety (53%), and economic assessments (30%) remain peripheral, with only 15% incorporating both technical and human dimensions. This measurement gap creates a fundamental disconnect between benchmark success and deployment value. We present evidence from healthcare, finance, and retail sectors where systems excelling on technical metrics failed in real-world implementation due to unmeasured human, temporal, and contextual factors. Our position is not against agentic AI's potential, but rather that current evaluation frameworks systematically privilege narrow technical metrics while neglecting dimensions critical to real-world success. We propose a balanced four-axis evaluation model and call on the community to lead this paradigm shift because benchmark-driven optimization shapes what we build. By redefining evaluation practices, we can better align industry claims with deployment realities and ensure responsible scaling of agentic systems in high-stakes domains.
- Abstract(参考訳): 業界報告によると、エージェントAIシステムは2桁の生産性向上と数十億ドルの経済ポテンシャルをもたらすという。
しかし,本稿では,エージェント型AIシステムに対する現在の評価手法が,業界生産性の主張に疑問を呈するシステム的不均衡を示すことを示す。
84論文(2023-2025)の体系的レビューでは,技術指標が評価(83%),人間中心(30%),安全(53%),経済評価(30%)が周辺に留まり,技術と人間の両方の次元を取り入れた比率は15%に過ぎなかった。
この測定ギャップは、ベンチマーク成功とデプロイメント価値の根本的な切り離しを生み出します。
医療、金融、小売部門では、計測されていない人的要因、時間的要因、文脈的要因により、技術指標に長けたシステムが現実の実施に失敗する証拠を提示する。
我々の立場はエージェントAIの可能性に反するものではなく、むしろ現在の評価フレームワークは、現実世界の成功に不可欠な次元を無視しながら、狭義の技術メトリクスを体系的に特権している。
我々はバランスの取れた4軸評価モデルを提案し、このパラダイムシフトをリードするようコミュニティに呼びかけます。
評価のプラクティスを再定義することで、業界における要求をデプロイメントの現実と整合させ、高レベルのドメインにおけるエージェントシステムのスケーリングに責任を負うことが可能になります。
関連論文リスト
- Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - Evaluation Framework for AI Systems in "the Wild" [37.48117853114386]
ジェネレーティブAI(GenAI)モデルは、業界全体で重要になっているが、現在の評価手法は、その普及に適応していない。
従来の評価は、しばしばベンチマークや固定データセットに依存し、実世界のパフォーマンスを反映しないことが多い。
本稿では,実世界のGenAIシステムを評価するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-23T14:52:39Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Evaluating the Social Impact of Generative AI Systems in Systems and Society [43.32010533676472]
テキスト(コードを含む)、画像、オーディオ、ビデオなどを含むモダリティにまたがる生成AIシステムは、幅広い社会的影響を持つ。
これらの影響を評価するための公式な基準や、どの影響を評価するべきかの基準はありません。
本稿では,任意のモダリティに対して基本生成型AIシステムを評価するための,標準的なアプローチに向けたガイドを提案する。
論文 参考訳(メタデータ) (2023-06-09T15:05:13Z) - Explanations of Machine Learning predictions: a mandatory step for its
application to Operational Processes [61.20223338508952]
信用リスクモデリングは重要な役割を果たす。
近年,機械学習や深層学習の手法が採用されている。
この分野における説明可能性問題に LIME 手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-12-30T10:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。