論文の概要: WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments
- arxiv url: http://arxiv.org/abs/2604.27776v1
- Date: Thu, 30 Apr 2026 12:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.080518
- Title: WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments
- Title(参考訳): WindowsWorld: プロのクロスアプリケーション環境における自動GUIエージェントのプロセス中心ベンチマーク
- Authors: Jinchao Li, Yunxin Li, Chenrui Zhao, Zhenran Xu, Baotian Hu, Min Zhang,
- Abstract要約: WindowsWorldは、現実世界のプロのアクティビティを反映した複雑なマルチステップタスクでGUIエージェントを評価するように設計されている。
本手法では,16の職業によって構成されたマルチエージェント・フレームワークを用いて,4つの困難レベルタスクを生成する。
ベンチマークには181のタスクが含まれ、17の一般的なデスクトップアプリケーションで平均5.0のサブゴールがある。
- 参考スコア(独自算出の注目度): 34.06270058972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While GUI agents have shown impressive capabilities in common computer-use tasks such as OSWorld, current benchmarks mainly focus on isolated and single-application tasks. This overlooks a critical real-world requirement of coordinating across multiple applications to accomplish complex profession-specific workflows. To bridge this gap, we present a computer-use benchmark in cross-application workflows, named WindowsWorld, designed to systematically assess GUI Agents on complex multi-step tasks that mirror real-world professional activities. Our methodology uses a multi-agent framework steered by 16 occupations to generate four difficulty-level tasks with intermediate inspection, which are then refined by human review and executed in a simulated environment. The resulting benchmark contains 181 tasks with an average of 5.0 sub-goals across 17 common desktop applications, of which 78% are inherently multi-application. Experimental results of leading large models and agents show that: 1) All computer-use agents perform poorly on multi-application tasks (< 21% success rate), far below the performance of simple single-app tasks; 2) They largely fail at tasks requiring conditional judgment and reasoning across $\geq$ 3 applications, stalling at early sub-goals; 3) Low execution efficiency, where tasks often fail despite far exceeding human step limits. Code, benchmark data, and evaluation resources are available at github.com/HITsz-TMG/WindowsWorld.
- Abstract(参考訳): GUIエージェントはOSWorldのような一般的なコンピュータ利用タスクにおいて印象的な機能を示しているが、現在のベンチマークは主に孤立した単一アプリケーションタスクに焦点を当てている。
これは、複雑な専門的なワークフローを達成するために複数のアプリケーションを横断してコーディネートするという、現実的な重要な要件を見落としている。
このギャップを埋めるために、現実世界のプロフェッショナル活動を反映した複雑なマルチステップタスクにおいてGUIエージェントを体系的に評価するために設計された、WindowsWorldと呼ばれるクロスアプリケーションワークフローにおけるコンピュータ利用ベンチマークを示す。
提案手法では,16の職業によって構成されたマルチエージェント・フレームワークを用いて,中間検査を伴う4つの困難レベルタスクを生成し,それを人間のレビューによって洗練し,シミュレーション環境で実行する。
結果のベンチマークには181のタスクが含まれており、17の共通デスクトップアプリケーションで平均5.0のサブゴールがあり、そのうち78%が本質的にマルチアプリケーションである。
先行する大型モデルとエージェントの実験結果が示す。
1) コンピュータ利用エージェントのマルチアプリケーションタスク(21%の成功率)は, 単純な単一アプリケーションタスクよりもはるかに低い。
2) 条件付き判断や,$\geq$3のアプリケーションに対する推論を必要とするタスクでは主に失敗し,早期のサブゴールで停止する。
3) 実行効率の低いタスクでは,人間のステップ制限をはるかに超越したタスクが頻繁に失敗する。
コード、ベンチマークデータ、評価リソースはgithub.com/HITsz-TMG/WindowsWorldで入手できる。
関連論文リスト
- AndroidLens: Long-latency Evaluation with Nested Sub-targets for Android GUI Agents [36.66219528445988]
モバイルGUIエージェントのための挑戦的な評価フレームワークであるAndroidLensを紹介する。
中国語と英語の両方の環境での長時間のタスクは571である。
我々の評価では、最高のモデルでさえ、12.7%のタスク成功率と50.47%のATPにしか達していない。
論文 参考訳(メタデータ) (2025-12-24T17:40:42Z) - The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution [86.4588675093384]
Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。
このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。
Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
論文 参考訳(メタデータ) (2025-10-29T17:32:49Z) - UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction [16.731754927372585]
UI-Visionは、コンピュータ使用エージェントのオフラインかつきめ細かい評価のための、最初の包括的なライセンス許容ベンチマークである。
オンラインベンチマークとは異なり、UI-Visionは人間のデモの密集した高品質なアノテーションを提供する。
評価の結果,UI-TARS-72Bのような最先端モデルの限界が明らかになった。
論文 参考訳(メタデータ) (2025-03-19T19:26:17Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。