論文の概要: Continuous Benchmark Generation for Evaluating Enterprise-scale LLM Agents
- arxiv url: http://arxiv.org/abs/2511.10049v1
- Date: Fri, 14 Nov 2025 01:28:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.664042
- Title: Continuous Benchmark Generation for Evaluating Enterprise-scale LLM Agents
- Title(参考訳): 企業規模のLCMエージェント評価のための連続ベンチマーク生成
- Authors: Divyanshu Saxena, Rishikesh Maurya, Xiaoxuan Ou, Gagan Somashekar, Shachee Mishra Gupta, Arun Iyer, Yu Kang, Chetan Bansal, Aditya Akella, Saravan Rajmohan,
- Abstract要約: 本稿では,要求の変化に応じてベンチマークを進化させ,進化するAIエージェントの堅牢な評価を行うベンチマーク生成プロセスを提案する。
このアプローチは、開発者が高レベルのインテントを表現し、最先端のLCMを使用して、ごく少数の文書からベンチマークを生成する半構造化ドキュメントに依存している。
- 参考スコア(独自算出の注目度): 23.277131100190086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of AI agents across domains has made systematic evaluation crucial for ensuring their usefulness and successful production deployment. Evaluation of AI agents typically involves using a fixed set of benchmarks and computing multiple evaluation metrics for the agent. While sufficient for simple coding tasks, these benchmarks fall short for enterprise-scale agents, where services and requirements evolve continuously and ground-truth examples are sparse. We propose a process of benchmark generation that helps evolve the benchmarks as the requirements change and perform robust evaluation of evolving AI agents. We instantiate this approach for a case study of service migration from one deployment platform to another at a large public enterprise. Our approach relies on semi-structured documents where developers express the high-level intent, and uses state-of-the-art LLMs to generate benchmarks from just a small number of such documents. Overall, this process results in a maintainable evaluation framework, enabling rapid feedback on agent performance and facilitating targeted improvements.
- Abstract(参考訳): ドメインにまたがるAIエージェントの急速な採用は、その有用性と運用デプロイメントの成功を保証するために、体系的な評価を重要視している。
AIエージェントの評価は通常、固定されたベンチマークセットを使用し、エージェントのための複数の評価メトリクスを計算する。
単純なコーディングタスクには十分ですが、これらのベンチマークはエンタープライズ規模のエージェントでは不十分です。
本稿では,要求の変化に応じてベンチマークを進化させ,進化するAIエージェントの堅牢な評価を行うベンチマーク生成プロセスを提案する。
このアプローチは、大規模なパブリッククラウドにおいて、あるデプロイメントプラットフォームから別のデプロイメントプラットフォームへのサービス移行のケーススタディとして、インスタンス化されます。
我々のアプローチは、開発者が高レベルのインテントを表現し、最先端のLCMを使用して、ごく少数の文書からベンチマークを生成する半構造化文書に依存している。
全体として、このプロセスは保守可能な評価フレームワークとなり、エージェントのパフォーマンスに対する迅速なフィードバックと、目標とする改善の促進を可能にします。
関連論文リスト
- Automatically Benchmarking LLM Code Agents through Agent-Driven Annotation and Evaluation [47.85891728056131]
PRDBenchは、20のドメインにわたる50の現実のPythonプロジェクトからなる、新しいベンチマークである。それぞれに構造化された製品要求文書(PRD)要件、包括的な評価基準、リファレンス実装がある。
我々はエージェント・アズ・ア・ジャッジ(Agen-as-a-Judge)パラダイムを用いてエージェントの出力を評価する。
論文 参考訳(メタデータ) (2025-10-28T12:26:45Z) - From Benchmarks to Business Impact: Deploying IBM Generalist Agent in Enterprise Production [6.189323683437766]
本稿では,汎用エージェント(CUGA)を用いたコンピュータの開発と試験経験について報告する。
CUGAは階層的なプランナー-実行アーキテクチャを採用し、強力な分析基盤を備えている。
それは、Business-Process-Outsourcing talent acquisition domainのパイロットとして評価された。
論文 参考訳(メタデータ) (2025-10-27T20:55:00Z) - FreshBrew: A Benchmark for Evaluating AI Agents on Java Code Migration [2.981397088242044]
我々は、プロジェクトレベルのJavaマイグレーションでAIエージェントを評価するための新しいベンチマークであるFreshBrewを紹介する。
我々は、いくつかの最先端のLCMをベンチマークし、それらの性能を既存のルールベースのツールと比較する。
228リポジトリのこのベンチマークにおけるAIエージェントの評価は、最高のパフォーマンスモデルである2.5 Gemini Flashがプロジェクトの52.3%を17.5%に移行できることを示している。
論文 参考訳(メタデータ) (2025-10-06T14:39:58Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - BenchAgents: Multi-Agent Systems for Structured Benchmark Creation [23.653678381444276]
BenchAgentsは評価ベンチマークの作成を自動化するフレームワークである。
BenchAgentsを使って、計画、制約満足度、因果推論に関連する機能を評価するベンチマークを作成します。
次に、これらのベンチマークを使用して、最先端のモデルを研究し、共通の障害モードとモデルの違いに関する新たな洞察を抽出します。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。