論文の概要: Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
- arxiv url: http://arxiv.org/abs/2602.16855v1
- Date: Sun, 15 Feb 2026 01:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.393866
- Title: Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
- Title(参考訳): Mobile-Agent-v3.5: マルチプラットフォームの基本GUIエージェント
- Authors: Haiyang Xu, Xi Zhang, Haowei Liu, Junyang Wang, Zhaozai Zhu, Shengjie Zhou, Xuhao Hu, Feiyu Gao, Junjie Cao, Zihua Wang, Zhiyuan Chen, Jitong Liao, Qi Zheng, Jiahui Zeng, Ze Xu, Shuai Bai, Junyang Lin, Jingren Zhou, Ming Yan,
- Abstract要約: この記事では、最新のネイティブGUIエージェントモデルであるGUI-Owl-1.5を紹介する。
クラウドとエッジのコラボレーションとリアルタイムのインタラクションを実現するために、さまざまなプラットフォーム(デスクトップ、モバイル、ブラウザなど)をサポートしている。
オープンソースモデル上で20以上のGUIベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 56.72789202127874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.
- Abstract(参考訳): この記事では、GUI-Owl-1.5について紹介する。GUI-Owl-1.5は、複数のサイズの変種(2B/4B/8B/32B/235B)を指示/思考する最新のネイティブGUIエージェントモデルで、クラウド-エッジのコラボレーションとリアルタイムインタラクションを実現するために、さまざまなプラットフォーム(デスクトップ、モバイル、ブラウザなど)をサポートしている。
GUI自動化タスクでは、OSWorldで56.5、AndroidWorldで71.6、WebArenaで48.4、ScreenSpotProで80.3、OSWorld-MCPで47.6、MobileWorldで46.8、メモリと知識タスクでは75.5、GUI-Knowledge Benchで75.5である。
1)Hybird Data Flywheel: シミュレーション環境とクラウドベースのサンドボックス環境を組み合わせたUI理解とトラジェクトリ生成のためのデータパイプラインを構築し、データ収集の効率と品質を向上させる。
2)エージェント能力の統一化:モデルの推論能力を向上させるために統合思考合成パイプラインを使用し,ツール/MCPの使用,メモリ,マルチエージェント適応などのキーエージェント能力の向上に特に重点を置いている。
GUI-Owl-1.5モデルはオープンソースであり、オンラインのクラウドサンドボックスデモはhttps://github.com/X-PLUG/MobileAgent.comで公開されている。
関連論文リスト
- MAI-UI Technical Report: Real-World Centric Foundation GUI Agents [33.46555542782679]
MAI-UIは、2B、8B、32B、および235B-A22Bを含む全範囲のGUIエージェントのファミリーである。
ネイティブエージェント-ユーザインタラクションの欠如、UIのみの操作の限界、実用的なデプロイメントアーキテクチャの欠如です。
論文 参考訳(メタデータ) (2025-12-26T14:51:52Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - Mobile-Agent-v3: Fundamental Agents for GUI Automation [59.775510710011325]
本稿では,オープンソースエンド・ツー・エンド・モデル間の最先端性能を実現する基礎的なGUIエージェントモデルを提案する。
汎用GUIエージェントフレームワークであるMobile-Agent-v3を提案し,AndroidWorldでは73.3,OSWorldでは37.7に向上した。
論文 参考訳(メタデータ) (2025-08-21T00:39:12Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。