論文の概要: Mobile-Agent-v3: Fundamental Agents for GUI Automation
- arxiv url: http://arxiv.org/abs/2508.15144v2
- Date: Mon, 01 Sep 2025 05:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.655132
- Title: Mobile-Agent-v3: Fundamental Agents for GUI Automation
- Title(参考訳): Mobile-Agent-v3:GUI自動化のための基本的なエージェント
- Authors: Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan,
- Abstract要約: 本稿では,オープンソースエンド・ツー・エンド・モデル間の最先端性能を実現する基礎的なGUIエージェントモデルを提案する。
汎用GUIエージェントフレームワークであるMobile-Agent-v3を提案し,AndroidWorldでは73.3,OSWorldでは37.7に向上した。
- 参考スコア(独自算出の注目度): 59.775510710011325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces GUI-Owl, a foundational GUI agent model that achieves state-of-the-art performance among open-source end-to-end models on ten GUI benchmarks across desktop and mobile environments, covering grounding, question answering, planning, decision-making, and procedural knowledge. GUI-Owl-7B achieves 66.4 on AndroidWorld and 29.4 on OSWorld. Building on this, we propose Mobile-Agent-v3, a general-purpose GUI agent framework that further improves performance to 73.3 on AndroidWorld and 37.7 on OSWorld, setting a new state-of-the-art for open-source GUI agent frameworks. GUI-Owl incorporates three key innovations: (1) Large-scale Environment Infrastructure: a cloud-based virtual environment spanning Android, Ubuntu, macOS, and Windows, enabling our Self-Evolving GUI Trajectory Production framework. This generates high-quality interaction data via automated query generation and correctness validation, leveraging GUI-Owl to refine trajectories iteratively, forming a self-improving loop. It supports diverse data pipelines and reduces manual annotation. (2) Diverse Foundational Agent Capabilities: by integrating UI grounding, planning, action semantics, and reasoning patterns, GUI-Owl supports end-to-end decision-making and can act as a modular component in multi-agent systems. (3) Scalable Environment RL: we develop a scalable reinforcement learning framework with fully asynchronous training for real-world alignment. We also introduce Trajectory-aware Relative Policy Optimization (TRPO) for online RL, achieving 34.9 on OSWorld. GUI-Owl and Mobile-Agent-v3 are open-sourced at https://github.com/X-PLUG/MobileAgent.
- Abstract(参考訳): 本稿では,デスクトップおよびモバイル環境における10のGUIベンチマーク上で,オープンソースのエンドツーエンドモデル間の最先端性能を実現するGUIエージェントモデルであるGUI-Owlを紹介し,基礎的,質問応答,計画,意思決定,手続き的知識について述べる。
GUI-Owl-7BはAndroidWorldで66.4、OSWorldで29.4を達成する。
これに基づいて,AndroidWorldでは73.3,OSWorldでは37.7,汎用的なGUIエージェントフレームワークであるMobile-Agent-v3を提案する。
GUI-Owlには3つの重要なイノベーションが含まれている。 (1) 大規模環境インフラ: Android、Ubuntu、macOS、Windowsにまたがるクラウドベースの仮想環境。
これにより、GUI-Owlを利用してトラジェクトリを反復的に洗練し、自己改善ループを形成する、自動クエリ生成と正当性検証による高品質なインタラクションデータを生成する。
多様なデータパイプラインをサポートし、手動のアノテーションを減らす。
2) 多様な基盤エージェント機能: UI の基盤化,計画,アクションセマンティクス,推論パターンを統合することで,GUI-Owl はエンドツーエンドの意思決定をサポートし,マルチエージェントシステムにおけるモジュールコンポーネントとして機能する。
(3) スケーラブル環境RL: 実世界のアライメントのための完全非同期トレーニングを備えたスケーラブルな強化学習フレームワークを開発する。
また、オンラインRLのためのTrjectory-aware Relative Policy Optimization (TRPO)を導入し、OSWorldで34.9を達成した。
GUI-OwlとMobile-Agent-v3はhttps://github.com/X-PLUG/MobileAgentでオープンソース化されている。
関連論文リスト
- MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point [17.165899818213475]
We introduced WorldGUI, a comprehensive GUI benchmark including tasks across 10 wide used desktop and web applications。
WorldGUI-Agentは3つのコアモジュールを統一する普遍的なフレームワークである。高レベルプラン修正のためのPlanner-Critic、中間検証のためのStep-Check、アクションレベルの最適化のためのActor-Criticである。
論文 参考訳(メタデータ) (2025-02-12T01:06:10Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection [38.833925781308665]
MLLMベースのGUIエージェントである textitInfiGUIAgent を2段階の教師付き微調整パイプラインでトレーニングした。
ステージ1はGUIの理解や接地といった基本的なスキルを強化し、ステージ2は階層的推論と予測反射推論のスキルを統合する。
textitInfiGUIAgentは、いくつかのGUIベンチマークで競合するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-08T15:45:21Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。
現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (2024-10-30T17:10:19Z) - AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。