論文の概要: MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
- arxiv url: http://arxiv.org/abs/2509.06477v1
- Date: Mon, 08 Sep 2025 09:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.039141
- Title: MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
- Title(参考訳): MAS-Bench: ショートカット強化ハイブリッドモバイルGUIエージェントのための統一ベンチマーク
- Authors: Pengxiang Zhao, Guangyi Liu, Yaozhen Liang, Weiqing He, Zhengxi Lu, Yuehao Huang, Yaxuan Guo, Kexin Zhang, Hao Wang, Liang Liu, Yong Liu,
- Abstract要約: 本稿ではGUIショートカットハイブリッドエージェントの評価の先駆けとなるベンチマークであるMAS-Benchを紹介する。
11の現実世界アプリケーションに139の複雑なタスク、88のショートカットの知識ベース、RPAスクリプト、そして7つの評価メトリクスがある。
実験の結果、ハイブリッドエージェントはGUIのみのエージェントよりも成功率と効率が著しく高いことがわかった。
- 参考スコア(独自算出の注目度): 15.022431504529571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To enhance the efficiency of GUI agents on various platforms like smartphones and computers, a hybrid paradigm that combines flexible GUI operations with efficient shortcuts (e.g., API, deep links) is emerging as a promising direction. However, a framework for systematically benchmarking these hybrid agents is still underexplored. To take the first step in bridging this gap, we introduce MAS-Bench, a benchmark that pioneers the evaluation of GUI-shortcut hybrid agents with a specific focus on the mobile domain. Beyond merely using predefined shortcuts, MAS-Bench assesses an agent's capability to autonomously generate shortcuts by discovering and creating reusable, low-cost workflows. It features 139 complex tasks across 11 real-world applications, a knowledge base of 88 predefined shortcuts (APIs, deep-links, RPA scripts), and 7 evaluation metrics. The tasks are designed to be solvable via GUI-only operations, but can be significantly accelerated by intelligently embedding shortcuts. Experiments show that hybrid agents achieve significantly higher success rates and efficiency than their GUI-only counterparts. This result also demonstrates the effectiveness of our method for evaluating an agent's shortcut generation capabilities. MAS-Bench fills a critical evaluation gap, providing a foundational platform for future advancements in creating more efficient and robust intelligent agents.
- Abstract(参考訳): スマートフォンやコンピュータなどの様々なプラットフォームにおけるGUIエージェントの効率を高めるため、フレキシブルなGUI操作と効率的なショートカット(API、ディープリンクなど)を組み合わせたハイブリッドパラダイムが期待できる方向として現れている。
しかし、これらのハイブリッドエージェントを体系的にベンチマークするフレームワークはまだ未検討である。
このギャップを埋める第一歩として、モバイルドメインに特化してGUIショートカットハイブリッドエージェントの評価を先駆するベンチマークであるMAS-Benchを紹介する。
MAS-Benchは、単に定義されたショートカットを使用するだけでなく、再利用可能な低コストのワークフローを発見して作成することによって、エージェントが自律的にショートカットを生成する能力を評価する。
11の現実世界アプリケーションに139の複雑なタスク、88の事前定義されたショートカット(API、ディープリンク、RPAスクリプト)の知識ベース、そして7つの評価指標を備えている。
タスクはGUIのみの操作で解決できるように設計されているが、ショートカットをインテリジェントに埋め込むことで大幅に高速化できる。
実験の結果、ハイブリッドエージェントはGUIのみのエージェントよりも成功率と効率が著しく高いことがわかった。
この結果は,エージェントのショートカット生成能力を評価するための手法の有効性を示す。
MAS-Benchは重要な評価ギャップを埋め、より効率的で堅牢なインテリジェントエージェントを作成するための基盤となるプラットフォームを提供する。
関連論文リスト
- CoAct-1: Computer-using Agents with Coding as Actions [94.99657662893338]
CoAct-1はGUIベースの制御と直接プログラム実行を組み合わせた新しいマルチエージェントシステムである。
我々は、CoAct-1が60.76%の最先端の成功率を達成したOSWorldベンチマークで、我々のシステムを評価した。
論文 参考訳(メタデータ) (2025-08-05T21:33:36Z) - MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文 参考訳(メタデータ) (2025-07-25T17:59:26Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - AppAgentX: Evolving GUI Agents as Proficient Smartphone Users [34.70342284525283]
本稿では,インテリジェンスと柔軟性を維持しつつ,操作効率を向上させるGUIエージェントの進化的フレームワークを提案する。
本手法は,エージェントのタスク実行履歴を記録するメモリ機構を組み込んだものである。
複数のベンチマークタスクに対する実験結果から,本手法は既存の手法よりも効率と精度が優れていることが示された。
論文 参考訳(メタデータ) (2025-03-04T04:34:09Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。