論文の概要: UItron: Foundational GUI Agent with Advanced Perception and Planning
- arxiv url: http://arxiv.org/abs/2508.21767v1
- Date: Fri, 29 Aug 2025 16:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.11585
- Title: UItron: Foundational GUI Agent with Advanced Perception and Planning
- Title(参考訳): UItron: 高度な知覚と計画を備えた基礎的なGUIエージェント
- Authors: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma,
- Abstract要約: 本稿では,GUIの高度な認識,接地,計画機能を備えた自動GUIエージェントのオープンソースモデルを提案する。
UItronはGUIエージェント開発を進める上で,基本的なコンポーネントとして,システムデータエンジニアリングとインタラクティブインフラストラクチャの必要性を強調している。
私たちは手作業で100万以上の操作トラジェクトリを、最も人気のあるアプリのトップ100に集め、オフラインおよびオンラインエージェント評価環境を構築しました。
- 参考スコア(独自算出の注目度): 13.67797194012135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI agent aims to enable automated operations on Mobile/PC devices, which is an important task toward achieving artificial general intelligence. The rapid advancement of VLMs accelerates the development of GUI agents, owing to their powerful capabilities in visual understanding and task planning. However, building a GUI agent remains a challenging task due to the scarcity of operation trajectories, the availability of interactive infrastructure, and the limitation of initial capabilities in foundation models. In this work, we introduce UItron, an open-source foundational model for automatic GUI agents, featuring advanced GUI perception, grounding, and planning capabilities. UItron highlights the necessity of systemic data engineering and interactive infrastructure as foundational components for advancing GUI agent development. It not only systematically studies a series of data engineering strategies to enhance training effects, but also establishes an interactive environment connecting both Mobile and PC devices. In training, UItron adopts supervised finetuning over perception and planning tasks in various GUI scenarios, and then develop a curriculum reinforcement learning framework to enable complex reasoning and exploration for online environments. As a result, UItron achieves superior performance in benchmarks of GUI perception, grounding, and planning. In particular, UItron highlights the interaction proficiency with top-tier Chinese mobile APPs, as we identified a general lack of Chinese capabilities even in state-of-the-art solutions. To this end, we manually collect over one million steps of operation trajectories across the top 100 most popular apps, and build the offline and online agent evaluation environments. Experimental results demonstrate that UItron achieves significant progress in Chinese app scenarios, propelling GUI agents one step closer to real-world application.
- Abstract(参考訳): GUIエージェントは,モバイル/PCデバイス上での自動操作を実現することを目的としており,人工知能の実現に向けた重要な課題である。
VLMの急速な進歩は、視覚的理解とタスク計画における強力な能力のため、GUIエージェントの開発を加速させる。
しかし,GUIエージェントの構築は,操作トラジェクトリの不足,対話的インフラストラクチャの可用性,基礎モデルの初期能力の制限など,依然として困難な課題である。
本稿では,GUIエージェントの自動認識,接地,計画機能を備えた,オープンソースのGUIエージェント基盤モデルであるUItronを紹介する。
UItronはGUIエージェント開発を進める上で,基本的なコンポーネントとして,システムデータエンジニアリングとインタラクティブインフラストラクチャの必要性を強調している。
トレーニング効果を高めるための一連のデータエンジニアリング戦略を体系的に研究するだけでなく、モバイルとPCデバイスを接続するインタラクティブ環境を確立する。
トレーニングにおいて、UItronは様々なGUIシナリオにおける知覚と計画タスクに関する教師付き微調整を採用し、オンライン環境の複雑な推論と探索を可能にするためのカリキュラム強化学習フレームワークを開発する。
その結果、UItronはGUI知覚、接地、計画のベンチマークにおいて優れたパフォーマンスを達成する。
特に、UItronは、最先端の中国のモバイルAPPとのインタラクション能力を強調し、最先端のソリューションでさえ、中国の能力の全般的な欠如を指摘した。
この目的のために、私たちは手作業で100万以上のオペレーショントラジェクトリを、最も人気のあるアプリのトップ100に集め、オフラインおよびオンラインエージェント評価環境を構築しました。
実験の結果、UItronは中国のアプリケーションシナリオにおいて大きな進歩を遂げており、GUIエージェントは現実世界のアプリケーションに一歩近づいた。
関連論文リスト
- MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning [83.81404871748438]
MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。
フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-07-19T12:33:43Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - ZeroGUI: Automating Online GUI Learning at Zero Human Cost [75.21128388931945]
我々は、ZeroGUIを提案する。ZeroGUIは、Zeroの人的コストでGUIエージェントのトレーニングを自動化する、スケーラブルでオンライン学習フレームワークである。
具体的には、(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標を生成するとともに、(ii)手作り評価機能なしでタスク成功を評価するためのVLMベースの自動報酬推定と、(iii)GUI環境と継続的に対話し学習するための2段階オンライン強化学習を統合する。
論文 参考訳(メタデータ) (2025-05-29T17:59:51Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。
彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。
これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (2024-11-27T12:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。