論文の概要: EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings
- arxiv url: http://arxiv.org/abs/2603.13594v1
- Date: Fri, 13 Mar 2026 21:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.289448
- Title: EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings
- Title(参考訳): EnterpriseOps-Gym: エンタープライズ環境でのステートフルなエージェント計画とツール使用環境と評価
- Authors: Shiva Krishna Reddy Malay, Shravan Nayak, Jishnu Sethumadhavan Nair, Sagar Davasam, Aman Tiwari, Sathwik Tejaswi Madhusudhan, Sridhar Krishna Nemala, Srinivas Sunkara, Sai Rajeswar,
- Abstract要約: 現実的なエンタープライズ環境でエージェント計画を評価するために設計されたベンチマークであるEnterpriseOps-Gymを紹介する。
この環境では、エージェントは8つのミッションクリティカルな分野にわたる1,150人の専門家によるタスクで評価される。
14のフロンティアモデルの評価により,最先端モデルにおける限界が明らかになった。
- 参考スコア(独自算出の注目度): 8.341628877927244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models are shifting from passive information providers to active agents intended for complex workflows. However, their deployment as reliable AI workers in enterprise is stalled by benchmarks that fail to capture the intricacies of professional environments, specifically, the need for long-horizon planning amidst persistent state changes and strict access protocols. In this work, we introduce EnterpriseOps-Gym, a benchmark designed to evaluate agentic planning in realistic enterprise settings. Specifically, EnterpriseOps-Gym features a containerized sandbox with 164 database tables and 512 functional tools to mimic real-world search friction. Within this environment, agents are evaluated on 1,150 expert-curated tasks across eight mission-critical verticals (including Customer Service, HR, and IT). Our evaluation of 14 frontier models reveals critical limitations in state-of-the-art models: the top-performing Claude Opus 4.5 achieves only 37.4% success. Further analysis shows that providing oracle human plans improves performance by 14-35 percentage points, pinpointing strategic reasoning as the primary bottleneck. Additionally, agents frequently fail to refuse infeasible tasks (best model achieves 53.9%), leading to unintended and potentially harmful side effects. Our findings underscore that current agents are not yet ready for autonomous enterprise deployment. More broadly, EnterpriseOps-Gym provides a concrete testbed to advance the robustness of agentic planning in professional workflows.
- Abstract(参考訳): 大規模言語モデルは、受動的情報プロバイダから、複雑なワークフローを意図したアクティブエージェントへとシフトしている。
しかし、企業における信頼性の高いAIワーカーとしてのデプロイメントは、プロフェッショナル環境の複雑さ、特に永続的な状態変化と厳格なアクセスプロトコルの中での長期計画の必要性を捉えないベンチマークによって停滞している。
本稿では,現実的なエンタープライズ環境でエージェント計画を評価するためのベンチマークであるEnterpriseOps-Gymを紹介する。
具体的には、EnterpriseOps-Gymは164のデータベーステーブルを備えたコンテナ化されたサンドボックスと、現実世界の検索摩擦を模倣する512の機能ツールを備えている。
この環境の中では、エージェントは8つのミッションクリティカルな分野(顧客サービス、人事、ITを含む)にわたる1,150のエキスパートキュレートされたタスクで評価される。
最先端のClaude Opus 4.5はわずか37.4%の成功しか達成していない。
さらなる分析により、オラクル・ヒューマン・プランを提供することで14~35ポイントの性能が向上し、戦略的推論が主要なボトルネックとなることが示された。
さらに、エージェントはしばしば非実用的タスク(ベストモデルでは53.9%)を拒否せず、意図せず潜在的に有害な副作用を引き起こす。
私たちの発見は、現在のエージェントは、まだ自律的なエンタープライズ展開の準備が整っていないことを裏付けています。
より広い範囲で、EnterpriseOps-Gymは、プロフェッショナルワークフローにおけるエージェント計画の堅牢性を促進するための具体的なテストベッドを提供する。
関連論文リスト
- EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments [0.10934862523101825]
我々は,高忠実度強化学習環境におけるAIエージェントの訓練が,トレーニング分布を超えて一般化する能力を生み出すことを示す。
私たちは、Surge AIのエージェントRL環境スイートであるEnterpriseBenchの最初の環境であるCoreCraftを紹介します。
論文 参考訳(メタデータ) (2026-02-18T04:35:46Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Routine: A Structural Planning Framework for LLM Agent System in Enterprise [10.989149053905587]
エンタープライズ環境におけるエージェントシステムの展開は、しばしばいくつかの課題によって妨げられる。
一般的なモデルは、ドメイン固有のプロセス知識が欠如し、非組織的な計画、主要なツールの欠如、実行の安定性が低下します。
本稿では、明確な構造、明示的な命令、シームレスなパラメータパッシングを備えたマルチステップエージェント計画フレームワークであるRuleineを紹介する。
論文 参考訳(メタデータ) (2025-07-19T02:46:19Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。