論文の概要: AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.01391v1
- Date: Mon, 02 Jun 2025 07:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.090366
- Title: AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning
- Title(参考訳): AgentCPM-GUI:強化ファインチューニングによるモバイル利用エージェントの構築
- Authors: Zhong Zhang, Yaxi Lu, Yikun Fu, Yupeng Huo, Shenzhi Yang, Yesai Wu, Han Si, Xin Cong, Haotian Chen, Yankai Lin, Jie Xie, Wei Zhou, Wang Xu, Yuanheng Zhang, Zhou Su, Zhongwu Zhai, Xiaoming Liu, Yudong Mei, Jianming Xu, Hongyan Tian, Chongyi Wang, Chi Chen, Yuan Yao, Zhiyuan Liu, Maosong Sun,
- Abstract要約: AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 82.42421823672954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent progress of large language model agents has opened new possibilities for automating tasks through graphical user interfaces (GUIs), especially in mobile environments where intelligent interaction can greatly enhance usability. However, practical deployment of such agents remains constrained by several key challenges. Existing training data is often noisy and lack semantic diversity, which hinders the learning of precise grounding and planning. Models trained purely by imitation tend to overfit to seen interface patterns and fail to generalize in unfamiliar scenarios. Moreover, most prior work focuses on English interfaces while overlooks the growing diversity of non-English applications such as those in the Chinese mobile ecosystem. In this work, we present AgentCPM-GUI, an 8B-parameter GUI agent built for robust and efficient on-device GUI interaction. Our training pipeline includes grounding-aware pre-training to enhance perception, supervised fine-tuning on high-quality Chinese and English trajectories to imitate human-like actions, and reinforcement fine-tuning with GRPO to improve reasoning capability. We also introduce a compact action space that reduces output length and supports low-latency execution on mobile devices. AgentCPM-GUI achieves state-of-the-art performance on five public benchmarks and a new Chinese GUI benchmark called CAGUI, reaching $96.9\%$ Type-Match and $91.3\%$ Exact-Match. To facilitate reproducibility and further research, we publicly release all code, model checkpoint, and evaluation data.
- Abstract(参考訳): 近年の大規模言語モデルエージェントの進歩は、特にユーザビリティを大幅に向上できるモバイル環境において、グラフィカルユーザインタフェース(GUI)を介してタスクを自動化する新たな可能性を開いた。
しかし、そのようなエージェントの実践的な展開は、いくつかの重要な課題によって制約されている。
既存のトレーニングデータは、しばしばノイズが多く、意味的な多様性がないため、正確な基礎と計画の学習を妨げる。
模倣によって純粋に訓練されたモデルは、インターフェースパターンを見るのに過度に適合し、馴染みの無いシナリオで一般化できない傾向にある。
さらに、これまでのほとんどの研究は、中国モバイルエコシステムのような英語以外のアプリケーションの多様性が増大しているのを見落としながら、英語のインターフェイスに焦点を当てていた。
本稿では,堅牢で効率的なオンデバイスGUIインタラクションのための8BパラメータGUIエージェントであるAgentCPM-GUIを提案する。
トレーニングパイプラインには、認識力を高めるための接地認識事前訓練、人間のような行動を模倣する高品質な中国語と英語の軌道を監督する微調整、推論能力を向上させるためのGRPOによる微調整の強化が含まれる。
また、出力長を小さくし、モバイルデバイス上での低レイテンシ実行をサポートするコンパクトなアクション空間も導入する。
AgentCPM-GUIは5つの公開ベンチマークとCAGUIと呼ばれる新しいGUIベンチマークで最先端のパフォーマンスを達成し、9.9\%のType-Matchと9.3\%のExact-Matchに到達した。
再現性とさらなる研究を容易にするため、我々はすべてのコード、モデルチェックポイント、評価データを公開した。
関連論文リスト
- InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection [38.833925781308665]
MLLMベースのGUIエージェントである textitInfiGUIAgent を2段階の教師付き微調整パイプラインでトレーニングした。
ステージ1はGUIの理解や接地といった基本的なスキルを強化し、ステージ2は階層的推論と予測反射推論のスキルを統合する。
textitInfiGUIAgentは、いくつかのGUIベンチマークで競合するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-08T15:45:21Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。