論文の概要: MAI-UI Technical Report: Real-World Centric Foundation GUI Agents
- arxiv url: http://arxiv.org/abs/2512.22047v1
- Date: Fri, 26 Dec 2025 14:51:52 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:57:30.589148
- Title: MAI-UI Technical Report: Real-World Centric Foundation GUI Agents
- Title(参考訳): MAI-UI Technical Report: Real-World Centric Foundation GUI Agents
- Authors: Hanzhang Zhou, Xu Zhang, Panrong Tong, Jianan Zhang, Liangyu Chen, Quyu Kong, Chenglin Cai, Chen Liu, Yue Wang, Jingren Zhou, Steven Hoi,
- Abstract要約: MAI-UIは、2B、8B、32B、および235B-A22Bを含む全範囲のGUIエージェントのファミリーである。
ネイティブエージェント-ユーザインタラクションの欠如、UIのみの操作の限界、実用的なデプロイメントアーキテクチャの欠如です。
- 参考スコア(独自算出の注目度): 33.46555542782679
- License:
- Abstract: The development of GUI agents could revolutionize the next generation of human-computer interaction. Motivated by this vision, we present MAI-UI, a family of foundation GUI agents spanning the full spectrum of sizes, including 2B, 8B, 32B, and 235B-A22B variants. We identify four key challenges to realistic deployment: the lack of native agent-user interaction, the limits of UI-only operation, the absence of a practical deployment architecture, and brittleness in dynamic environments. MAI-UI addresses these issues with a unified methodology: a self-evolving data pipeline that expands the navigation data to include user interaction and MCP tool calls, a native device-cloud collaboration system routes execution by task state, and an online RL framework with advanced optimizations to scale parallel environments and context length. MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro. On mobile GUI navigation, it sets a new SOTA of 76.7% on AndroidWorld, surpassing UI-Tars-2, Gemini-2.5-Pro and Seed1.8. On MobileWorld, MAI-UI obtains 41.7% success rate, significantly outperforming end-to-end GUI models and competitive with Gemini-3-Pro based agentic frameworks. Our online RL experiments show significant gains from scaling parallel environments from 32 to 512 (+5.2 points) and increasing environment step budget from 15 to 50 (+4.3 points). Finally, the native device-cloud collaboration system improves on-device performance by 33%, reduces cloud model calls by over 40%, and preserves user privacy.
- Abstract(参考訳): GUIエージェントの開発は、次世代の人間とコンピュータの相互作用に革命をもたらす可能性がある。
このビジョンに触発されたMAI-UIは,2B,8B,32B,235B-A22Bの変種を含む全範囲のGUIエージェントである。
ネイティブエージェントとユーザ間のインタラクションの欠如、UIのみの操作の限界、実践的なデプロイメントアーキテクチャの欠如、動的環境の脆さです。
MAI-UIは、ユーザインタラクションやMPPツールコールを含むようにナビゲーションデータを拡張する自己進化型データパイプライン、タスク状態による実行をルーティングするネイティブデバイスとクラウドのコラボレーションシステム、並列環境とコンテキスト長を拡張可能な高度な最適化を備えたオンラインRLフレームワークといった、これらの問題に対処する。
MAI-UIはGUIグラウンディングとモバイルナビゲーションにまたがる新しい最先端技術を確立する。
ベンチマークでは、ScreenSpot-Proで73.5%、MMBench GUI L2で91.3%、OSWorld-Gで70.9%、UI-Visionで49.2%、ScreenSpot-ProでGemini-3-ProとSeed1.8を上回った。
モバイルGUIナビゲーションでは、AndroidWorldで76.7%の新しいSOTAが設定され、UI-Tars-2、Gemini-2.5-Pro、Seed1.8を上回った。
MobileWorldでは、MAI-UIが41.7%の成功率を獲得し、エンドツーエンドのGUIモデルを大幅に上回り、Gemini-3-Proベースのエージェントフレームワークと競合する。
オンラインRL実験では,32から512(+5.2ポイント)までの並列環境のスケーリングと,15から50(+4.3ポイント)までの環境ステップ予算の増加により,大きな成果が得られた。
最後に、ネイティブデバイスとクラウドのコラボレーションシステムは、デバイス上でのパフォーマンスを33%改善し、クラウドモデルの呼び出しを40%以上削減し、ユーザのプライバシを維持する。
関連論文リスト
- UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning [51.54456545661045]
本稿では,インストラクション・アズ・ア・推論(Instruction-as-Reasoning)パラダイムを導入し,インストラクションを動的解析経路として扱う。
これを実現するために,教師付き微調整と強化学習という2段階のトレーニングフレームワークを提案する。
得られたモデルであるUI-Ins-7BとUI-Ins-32Bは、5つの挑戦的なグラウンドベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-10-23T07:18:32Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - Mobile-Agent-v3: Fundamental Agents for GUI Automation [59.775510710011325]
本稿では,オープンソースエンド・ツー・エンド・モデル間の最先端性能を実現する基礎的なGUIエージェントモデルを提案する。
汎用GUIエージェントフレームワークであるMobile-Agent-v3を提案し,AndroidWorldでは73.3,OSWorldでは37.7に向上した。
論文 参考訳(メタデータ) (2025-08-21T00:39:12Z) - UI-Venus Technical Report: Building High-performance UI Agents with RFT [43.28453678270454]
マルチモーダルな大言語モデルに基づいてスクリーンショットのみを入力として取り込むネイティブUIエージェントであるUI-Venusを提示する。
数十万の高品質なトレーニングサンプルを使用して、UIグラウンドとナビゲーションタスクの両方でSOTAのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-14T16:58:07Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。