論文の概要: EntWorld: A Holistic Environment and Benchmark for Verifiable Enterprise GUI Agents
- arxiv url: http://arxiv.org/abs/2601.17722v1
- Date: Sun, 25 Jan 2026 06:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.231222
- Title: EntWorld: A Holistic Environment and Benchmark for Verifiable Enterprise GUI Agents
- Title(参考訳): EntWorld: 検証可能なエンタープライズGUIエージェントのためのホロスティックな環境とベンチマーク
- Authors: Ying Mo, Yu Bai, Dapeng Sun, Yuqian Shi, Yukai Miao, Li Chen, Dan Li,
- Abstract要約: EntWorldは6つの代表的なエンタープライズドメインにわたる1,756タスクからなる大規模なベンチマークである。
基礎となるデータベーススキーマからビジネスロジックを直接リバースエンジニアリングするスキーマ基底タスク生成フレームワークを提案する。
現状のモデルでは,EntWorldで47.61%の成功率を達成した。
- 参考スコア(独自算出の注目度): 12.7922877987936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have enabled agents to operate in open-ended web and operating system environments. However, existing benchmarks predominantly target consumer-oriented scenarios (e.g., e-commerce and travel booking), failing to capture the complexity and rigor of professional enterprise workflows. Enterprise systems pose distinct challenges, including high-density user interfaces, strict business logic constraints, and a strong reliance on precise, state-consistent information retrieval-settings in which current generalist agents often struggle. To address this gap, we introduce EntWorld, a large-scale benchmark consisting of 1,756 tasks across six representative enterprise domains, including customer relationship management (CRM), information technology infrastructure library (ITIL), and enterprise resource planning (ERP) systems. Unlike previous datasets that depend on fragile execution traces or extensive manual annotation, EntWorld adopts a schema-grounded task generation framework that directly reverse-engineers business logic from underlying database schemas, enabling the synthesis of realistic, long-horizon workflows. Moreover, we propose a SQL-based deterministic verification mechanism in building datasets that replaces ambiguous visual matching with rigorous state-transition validation. Experimental results demonstrate that state-of-the-art models (e.g., GPT-4.1) achieve 47.61% success rate on EntWorld, substantially lower than the human performance, highlighting a pronounced enterprise gap in current agentic capabilities and the necessity of developing domain-specific agents. We release EntWorld as a rigorous testbed to facilitate the development and evaluation of the next generation of enterprise-ready digital agents.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩により、エージェントはオープンなWebおよびオペレーティングシステム環境で動作できるようになった。
しかし、既存のベンチマークは主にコンシューマ指向のシナリオ(eコマースや旅行予約など)をターゲットにしており、プロフェッショナルなエンタープライズワークフローの複雑さと厳格さを捉えていない。
エンタープライズシステムは、高密度ユーザインタフェース、厳密なビジネスロジック制約、そして現在のジェネラリストエージェントがしばしば苦労する正確でステート一貫性のある情報検索セットへの強い依存など、異なる課題を提起する。
本稿では、顧客関係管理(CRM)、情報技術基盤ライブラリ(ITIL)、エンタープライズリソース計画(ERP)システムを含む6つの代表的なエンタープライズドメインにわたる1,756タスクからなる大規模ベンチマークであるEntWorldを紹介する。
脆弱な実行トレースや広範な手動アノテーションに依存する以前のデータセットとは異なり、EntWorldでは、基盤となるデータベーススキーマから直接ビジネスロジックをリバースエンジニアリングするスキーマ基底タスク生成フレームワークを採用しており、現実的な長期ワークフローの合成を可能にしている。
さらに、曖昧なビジュアルマッチングと厳密な状態遷移検証を置き換えたデータセット構築のためのSQLベースの決定論的検証機構を提案する。
実験の結果、最先端モデル(例えばGPT-4.1)はEntWorldで47.61%の成功率を達成した。
我々はエントワールドを厳格なテストベッドとしてリリースし、次世代のエンタープライズ対応デジタルエージェントの開発と評価を容易にする。
関連論文リスト
- ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - LLM and Agent-Driven Data Analysis: A Systematic Approach for Enterprise Applications and System-level Deployment [17.572976426351318]
ジェネレーティブAIとエージェント技術は、エンタープライズデータ管理と分析を変革している。
従来のデータベースアプリケーションとシステムデプロイメントは、AI駆動のツールによって根本的に影響を受ける。
データセキュリティとコンプライアンスは、AI技術を採用する組織にとって最優先事項である。
論文 参考訳(メタデータ) (2025-11-21T07:16:31Z) - CRMWeaver: Building Powerful Business Agent via Agentic RL and Shared Memories [15.512057716487517]
ビジネスエージェントを複雑な環境で強化する新しいアプローチであるCRMWeaverを提案する。
我々は、学習中に合成データ生成とRLに基づくパラダイムを採用し、複雑なデータを扱うモデルの能力を大幅に改善する。
CRMArena-Proデータセットに対する我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2025-10-29T09:47:40Z) - Affordance Representation and Recognition for Autonomous Agents [64.39018305018904]
本稿では,構造化データを用いた世界モデリングのためのパターン言語を提案する。
DOMトランスダクションパターンは、Webページの複雑さの課題に対処する。
Hypermedia Affordances Recognition Patternは、エージェントがその世界モデルを動的に強化することを可能にする。
論文 参考訳(メタデータ) (2025-10-28T14:27:28Z) - A Survey of Data Agents: Emerging Paradigm or Overstated Hype? [66.1526688475023]
現在「データエージェント」は用語的曖昧さと不整合性に悩まされている。
この調査では、データエージェントのための最初の体系的な階層型分類を紹介した。
プロアクティブな生成データエージェントの出現を想定する、先見的なロードマップで締めくくります。
論文 参考訳(メタデータ) (2025-10-27T17:54:07Z) - Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics [75.4712507893024]
Enterprise Deep Research (EDR)は、適応的なクエリ分解のためのマスタープランニングエージェントを統合するマルチエージェントシステムである。
4つの専門的な検索エージェント(General, Academic, GitHub, LinkedIn)と、データ駆動インサイトのための可視化エージェントも含まれている。
EDRは、オプショナル・イン・ザ・ループ・ステアリング・ガイダンスによる研究の方向性を反映する。
論文 参考訳(メタデータ) (2025-10-20T17:55:11Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - Structured Agentic Workflows for Financial Time-Series Modeling with LLMs and Reflective Feedback [16.04516547661581]
時系列データは金融市場における意思決定の中心であるが、ハイパフォーマンス、解釈可能、監査可能なモデルの構築は依然として大きな課題である。
textsfTSAgentは、金融アプリケーションの時系列モデリングの自動化と強化を目的として設計されたモジュラーエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-08-19T15:14:49Z) - FinRobot: Generative Business Process AI Agents for Enterprise Resource Planning in Finance [6.494553545846438]
我々は、ERPシステムのための最初のAIネイティブフレームワークを提示し、生成ビジネスプロセスAIエージェントの新しいアーキテクチャを導入する。
提案システムは、生成AIとビジネスプロセスモデリングとマルチエージェントオーケストレーションを統合し、エンドツーエンドの自動化を可能にする。
GBPAは処理時間の最大40%削減、エラー率94%削減、規制コンプライアンスの改善を実現している。
論文 参考訳(メタデータ) (2025-06-02T08:22:28Z) - Orchestrating Agents and Data for Enterprise: A Blueprint Architecture for Compound AI [11.859180018313147]
企業アプリケーションのためのエージェントとデータをオーケストレーションするための複合AIシステムのための「青写真アーキテクチャ」を提案する。
エンタープライズにおける既存のプロプライエタリなモデルとAPIは、'エージェントレジストリ'で定義された'エージェント'にマップされる。
エージェントは、さまざまなモダリティのエンタープライズデータを同じように登録する'データレジストリ'を通じて、プロプライエタリなデータを利用することができる。
論文 参考訳(メタデータ) (2025-04-10T22:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。