論文の概要: MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning
- arxiv url: http://arxiv.org/abs/2508.03700v2
- Date: Fri, 08 Aug 2025 13:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:29.560366
- Title: MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning
- Title(参考訳): MagicGUI: スケーラブルなデータパイプラインと強化ファインチューニングを備えた基礎的なモバイルGUIエージェント
- Authors: Liujian Tang, Shaokang Dong, Yijia Huang, Minqi Xiang, Hongtao Ruan, Bin Wang, Shuo Li, Zhiheng Xi, Zhihui Cao, Hailiang Pang, Heng Kong, He Yang, Mingxu Chai, Zhilin Gao, Xingyu Liu, Yingnan Fu, Jiaming Liu, Xuanjing Huang, Yu-Gang Jiang, Tao Gui, Qi Zhang, Kang Wang, Yunke Zhang, Yuran Wang,
- Abstract要約: MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。
フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
- 参考スコア(独自算出の注目度): 73.9813787262873
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents MagicGUI, a foundational mobile GUI agent designed to address critical challenges in perception, grounding, and reasoning within real-world mobile GUI environments. The framework is underpinned by following six key components: (1) a comprehensive and accurate dataset, constructed via the scalable GUI Data Pipeline, which aggregates the largest and most diverse GUI-centric multimodal data to date from open-source repositories, automated crawling, and targeted manual annotation; (2) enhanced perception and grounding capabilities, facilitating fine-grained multimodal alignment for UI element referencing, grounding, and screen comprehension; (3) a comprehensive and unified action space, encompassing both fundamental UI operations and complex interactive intents to support human-agent interactions; (4) planning-oriented reasoning mechanisms that enable the model to decompose complex user instructions into sequential actions with explicit intermediate meta-paln reasoning; (5) an iterative two-stage training procedure, combining large-scale continue pre-training on 7.8M samples with reinforcement fine-tuning utilizing a spatially enhanced composite reward and dual filtering strategy; and (6) competitive performance on both the proprietary Magic-RICH benchmark and over a dozen public benchmarks, achieving superior performance across GUI perception and agent tasks, while demonstrating robust generalization and real-world deployment potential in practical mobile GUI scenarios, as detailed in Figure 1.
- Abstract(参考訳): 本稿では,現実のモバイルGUI環境における認識,接地,推論において重要な課題に対処するために設計された,基本的なモバイルGUIエージェントであるMagicGUIを提案する。
フレームワークは以下の6つの主要なコンポーネントによって支えられている: (1) スケーラブルなGUI Data Pipelineによって構築された包括的かつ正確なデータセット オープンソースのリポジトリから現在最も大きく、最も多様なGUI中心のマルチモーダルデータを集約する、自動クロール、ターゲット手動アノテーション、(2) UI要素の参照、グラウンド、スクリーン理解のためのきめ細かいマルチモーダルアライメントを促進する、(3) 基本UI操作と複雑な対話的インテントの両方を包含してヒューマンエージェントインタラクションをサポートする、包括的な統合されたアクション空間、(4) 複雑なユーザ命令を明示的な中間的メタパルト推論でシーケンシャルなアクションに分解できる計画指向推論機構、(5) 反復的な2段階のトレーニング 、7.8M.M.m.m.m.ms.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m. m.m.m.m.m.m.m.m.m.m.m.m.ms.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m .m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m .m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m .m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m.m .m.m.m.m.m.m.m.m.m.m.m
関連論文リスト
- MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Breaking the Data Barrier -- Building GUI Agents Through Task Generalization [25.129269032612832]
本研究では,データ豊かで推論集約的なタスクにおける視覚言語モデル(VLM)のトレーニングを提案する。
本稿では,GUI認識,マルチモーダル推論,テキスト推論など,手軽に利用できるインストラクションチューニングデータを用いて,さまざまなタスクを探索する。
われわれの研究はGUIエージェントのドメイン間知識伝達に関する貴重な知見を提供し、データの不足に対処するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-04-14T11:35:02Z) - GUI-Xplore: Empowering Generalizable GUI Agents with One Exploration [22.814882629516635]
GUI-Xploreは、クロスアプリケーションとクロスタスクの一般化を強化するために細心の注意を払って設計されたデータセットである。
GUI-Xploreのユニークな機能をフル活用するために,Action-aware GUI ModelingとGraph-Guided Environment Reasoningを組み合わせたGUIエージェントフレームワークであるXplore-Agentを提案する。
論文 参考訳(メタデータ) (2025-03-22T09:30:37Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。