論文の概要: MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents
- arxiv url: http://arxiv.org/abs/2507.19478v1
- Date: Fri, 25 Jul 2025 17:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.064774
- Title: MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents
- Title(参考訳): MMBench-GUI:GUIエージェントのための階層型マルチプラットフォーム評価フレームワーク
- Authors: Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang,
- Abstract要約: MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
- 参考スコア(独自算出の注目度): 88.35544552383581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI automation agents across Windows, macOS, Linux, iOS, Android, and Web platforms. It comprises four levels: GUI Content Understanding, Element Grounding, Task Automation, and Task Collaboration, covering essential skills for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA) metric to assess GUI agent execution efficiency in online automation scenarios. Through MMBench-GUI, we identify accurate visual grounding as a critical determinant of overall task success, emphasizing the substantial benefits of modular frameworks that integrate specialized grounding modules. Furthermore, to achieve reliable GUI automation, an agent requires strong task planning and cross-platform generalization abilities, with long-context memory, a broad action space, and long-term reasoning playing a critical role. More important, task efficiency remains a critically underexplored dimension, and all models suffer from substantial inefficiencies, with excessive redundant steps even when tasks are ultimately completed. The integration of precise localization, effective planning, and early stopping strategies is indispensable to enable truly efficient and scalable GUI automation. Our benchmark code, evaluation data, and running environment will be publicly available at https://github.com/open-compass/MMBench-GUI.
- Abstract(参考訳): MMBench-GUIは、Windows、macOS、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
さらに、オンライン自動化シナリオにおけるGUIエージェントの実行効率を評価するための新しい効率品質領域(EQA)指標を提案する。
MMBench-GUIを通して、我々は、正確な視覚的接地をタスク全体の成功の重要な決定要因とみなし、特別な接地モジュールを統合するモジュラーフレームワークの実質的な利点を強調した。
さらに、信頼性の高いGUI自動化を実現するために、エージェントは、強いタスク計画とクロスプラットフォームの一般化能力を必要とし、長いコンテキストメモリ、広いアクション空間、長期的な推論が重要な役割を果たす。
さらに重要なのは、タスクの効率性は決定的に過小評価された次元のままであり、全てのモデルは、タスクが最終的に完了しても過度に冗長なステップを伴って、かなりの非効率に苦しむことである。
正確なローカライゼーション、効率的な計画、早期停止戦略の統合は、真に効率的でスケーラブルなGUI自動化を実現するために不可欠である。
ベンチマークコード、評価データ、実行環境はhttps://github.com/open-compass/MMBench-GUIで公開されます。
関連論文リスト
- MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point [17.165899818213475]
We introduced WorldGUI, a comprehensive GUI benchmark including tasks across 10 wide used desktop and web applications。
WorldGUI-Agentは3つのコアモジュールを統一する普遍的なフレームワークである。高レベルプラン修正のためのPlanner-Critic、中間検証のためのStep-Check、アクションレベルの最適化のためのActor-Criticである。
論文 参考訳(メタデータ) (2025-02-12T01:06:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。