論文の概要: Towards a Standard, Enterprise-Relevant Agentic AI Benchmark: Lessons from 5.5 billion tokens' worth of agentic AI evaluations
- arxiv url: http://arxiv.org/abs/2511.08042v1
- Date: Wed, 12 Nov 2025 01:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.61055
- Title: Towards a Standard, Enterprise-Relevant Agentic AI Benchmark: Lessons from 5.5 billion tokens' worth of agentic AI evaluations
- Title(参考訳): 標準的なエンタープライズ関連エージェントAIベンチマークに向けて:550億トークンのエージェントAI評価から学んだこと
- Authors: JV Roig,
- Abstract要約: 汚染抵抗とエージェント評価の両方に対処する企業中心のベンチマークである,上座エージェントメリット指数(KAMI)v0.1を提示する。
従来のベンチマークのランキングは、実用的なエージェント性能を十分に予測できないことを実証する。
また、コストパフォーマンストレードオフ、モデル固有の行動パターン、およびトークン効率に対する推論能力の影響について考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enterprise adoption of agentic AI systems requires reliable evaluation methods that reflect real-world deployment scenarios. Traditional LLM benchmarks suffer from training data contamination and fail to measure agentic capabilities such as multi-step tool use and decision-making under uncertainty. We present the Kamiwaza Agentic Merit Index (KAMI) v0.1, an enterprise-focused benchmark that addresses both contamination resistance and agentic evaluation. Through 170,000 LLM test items processing over 5.5 billion tokens across 35 model configurations, we demonstrate that traditional benchmark rankings poorly predict practical agentic performance. Notably, newer generation models like Llama 4 or Qwen 3 do not always outperform their older generation variants on enterprise-relevant tasks, contradicting traditional benchmark trends. We also present insights on cost-performance tradeoffs, model-specific behavioral patterns, and the impact of reasoning capabilities on token efficiency -- findings critical for enterprises making deployment decisions.
- Abstract(参考訳): エージェントAIシステムのエンタープライズ導入には、現実のデプロイメントシナリオを反映した信頼性の高い評価方法が必要である。
従来のLCMベンチマークは、データ汚染のトレーニングに苦しむとともに、多段階ツールの使用や不確実性の下での意思決定といったエージェント能力の測定に失敗する。
汚染抵抗とエージェント評価の両方に対処する企業中心のベンチマークである,上座エージェントメリット指数(KAMI)v0.1を提示する。
550億以上のトークンを35のモデル構成で処理する170,000 LLMテスト項目を通じて、従来のベンチマークランキングが実用的なエージェント性能を予測できないことを示した。
特に、Llama 4やQwen 3のような新しい世代モデルは、従来のベンチマークトレンドに反して、エンタープライズ関連タスクにおいて、古い世代のモデルよりも常に優れているとは限らない。
また、コストパフォーマンスのトレードオフ、モデル固有の行動パターン、およびトークン効率に対する推論能力の影響に関する洞察も提示します。
関連論文リスト
- Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents [1.0305173936249623]
白書では、AIエージェントの成果に基づくタスク非依存のパフォーマンス指標11の新たなフレームワークを提案する。
本稿では、ゴール完了率(GCR)、自律度指数(AIx)、マルチステップタスクレジリエンス(MTR)、ビジネスインパクト効率(BIE)などの指標を紹介する。
この結果から, エージェント設計の相違が顕著であり, ハイブリットエージェントを一貫した高性能モデルとして強調した。
論文 参考訳(メタデータ) (2025-11-11T13:40:46Z) - APTBench: Benchmarking Agentic Potential of Base LLMs During Pre-Training [48.20667772172573]
APTBenchは、現実世界のエージェントタスクと成功した軌道を多重選択やテキスト補完の質問に変換するフレームワークである。
中心となるエージェント能力、例えば計画と行動に焦点を当て、主要なエージェントシナリオ、ソフトウェア工学、深層研究をカバーしている。
既存の汎用ベンチマークと比較すると、APTBenchはモデル下流のパフォーマンスをエージェントとしてより予測的な信号を提供する。
論文 参考訳(メタデータ) (2025-10-28T13:11:22Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - Sustainability via LLM Right-sizing [21.17523328451591]
大規模言語モデル(LLM)はますます組織に組み込まれている。
本研究は,10の日常業務において,プロプライエタリでオープンウェイトなLDMを11個評価することによって,実証的な回答を提供する。
その結果, GPT-4oは高い性能を保ちながら, コストと環境のフットプリントが著しく高いことがわかった。
論文 参考訳(メタデータ) (2025-04-17T04:00:40Z) - More than Marketing? On the Information Value of AI Benchmarks for Practitioners [42.73526862595375]
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。
有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
論文 参考訳(メタデータ) (2024-12-07T03:35:39Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。