論文の概要: World of Workflows: a Benchmark for Bringing World Models to Enterprise Systems
- arxiv url: http://arxiv.org/abs/2601.22130v1
- Date: Thu, 29 Jan 2026 18:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.094619
- Title: World of Workflows: a Benchmark for Bringing World Models to Enterprise Systems
- Title(参考訳): World of Workflows: エンタープライズシステムに世界モデルをもたらすベンチマーク
- Authors: Lakshya Gupta, Litao Li, Yizhe Liu, Sriram Ganapathi Subramanian, Kaheer Suleman, Zichen Zhang, Haoye Lu, Sumit Pasupalak,
- Abstract要約: 最前線の大規模言語モデル(LLM)は多くの領域で優れているが、複雑なエンタープライズシステムではテストされていない。
WoW(World of Warcraft)は,4,000以上のビジネスルールと55のアクティブな組み込み機能を備えた,現実的なServiceNowベースの環境である。
筆者らは,(1)フロンティアLSMはダイナミックス障害に悩まされ,その行動の不可視的かつカスケードな副作用を常に予測できないこと,(2)不透明なシステムにおける信頼性には,隠れた状態遷移を精神的にシミュレートし,高忠実なフィードバックが得られない場合に可観測性ギャップを橋渡ししなければならない,という2つの主要な特徴を明らかにした。
- 参考スコア(独自算出の注目度): 6.643798239990755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier large language models (LLMs) excel as autonomous agents in many domains, yet they remain untested in complex enterprise systems where hidden workflows create cascading effects across interconnected databases. Existing enterprise benchmarks evaluate surface-level agentic task completion similar to general consumer benchmarks, ignoring true challenges in enterprises, such as limited observability, large database state, and hidden workflows with cascading side effects. We introduce World of Workflows (WoW), a realistic ServiceNow-based environment incorporating 4,000+ business rules and 55 active workflows embedded in the system, alongside WoW-bench, a benchmark of 234 tasks evaluating constrained agentic task completion and enterprise dynamics modeling capabilities. We reveal two major takeaways: (1) Frontier LLMs suffer from dynamics blindness, consistently failing to predict the invisible, cascading side effects of their actions, which leads to silent constraint violations, and (2) reliability in opaque systems requires grounded world modeling, where agents must mentally simulate hidden state transitions to bridge the observability gap when high-fidelity feedback is unavailable. For reliable and useful enterprise agents, WoW motivates a new paradigm to explicitly learn system dynamics. We release our GitHub for setting up and evaluating WoW.
- Abstract(参考訳): 最前線の大規模言語モデル(LLM)は、多くのドメインにおいて自律的なエージェントとして優れているが、隠れワークフローが相互接続されたデータベース間のカスケード効果を生み出す複雑なエンタープライズシステムでは、まだテストされていない。
既存のエンタープライズベンチマークでは、一般消費者のベンチマークと同様、表面レベルのエージェントタスク補完を評価しており、観測可能性の制限、大規模なデータベース状態、カスケードサイドエフェクトを備えた隠れワークフローなど、企業における真の課題を無視している。
WoW-bench(WoW-bench)は、制約されたエージェントタスクの完了とエンタープライズ動的モデリング機能を評価する234のタスクのベンチマークである。
筆者らは,(1)フロンティアLSMはダイナミックス障害に悩まされ,その行動の不可視的かつカスケードな副作用を常に予測できないこと,(2)不透明なシステムにおける信頼性には,隠れた状態遷移を精神的にシミュレートし,高忠実なフィードバックが得られない場合に可観測性ギャップを橋渡ししなければならない,という2つの主要な特徴を明らかにした。
信頼性と有用なエンタープライズエージェントのために、WoWはシステムダイナミクスを明示的に学習する新しいパラダイムを動機付けている。
WoWのセットアップと評価のためにGitHubをリリースしています。
関連論文リスト
- EntWorld: A Holistic Environment and Benchmark for Verifiable Enterprise GUI Agents [12.7922877987936]
EntWorldは6つの代表的なエンタープライズドメインにわたる1,756タスクからなる大規模なベンチマークである。
基礎となるデータベーススキーマからビジネスロジックを直接リバースエンジニアリングするスキーマ基底タスク生成フレームワークを提案する。
現状のモデルでは,EntWorldで47.61%の成功率を達成した。
論文 参考訳(メタデータ) (2026-01-25T06:58:15Z) - What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。
本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。
実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-14T14:09:11Z) - REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation [46.970355660265284]
VLA(Vision-Language-Action)モデルは、自然言語で記述されたタスクをロボットが理解し実行できるようにするモデルである。
重要な課題は、訓練された特定の環境や条件を超えて一般化できることです。
本稿では,VLAモデルの一般化能力を評価するための新しいシミュレーション環境とベンチマークであるREALMを提案する。
論文 参考訳(メタデータ) (2025-12-22T16:44:23Z) - IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation [56.43007596544299]
IndustryNavは、アクティブな空間推論のための最初の動的産業用ナビゲーションベンチマークである。
9つの最先端のVisual Large Language Modelsの研究によると、クローズドソースモデルは一貫した優位性を維持している。
論文 参考訳(メタデータ) (2025-11-21T16:48:49Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? [50.36826943689364]
言語エージェントがWeb上で現実的で時間を要するタスクを実行できるかどうかを調査する。
自動評価が可能な214の現実的なタスクからなる新しいベンチマークであるAssistantBenchを紹介する。
我々は,AssistantBenchが,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにすることを発見した。
論文 参考訳(メタデータ) (2024-07-22T15:18:45Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。