論文の概要: UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience
- arxiv url: http://arxiv.org/abs/2603.24533v1
- Date: Wed, 25 Mar 2026 17:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.401037
- Title: UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience
- Title(参考訳): UI-Voyager: 失敗経験による自己進化型GUIエージェント学習
- Authors: Zichuan Lin, Feiyu Liu, Yijun Yang, Jiafei Lyu, Yiming Gao, Yicheng Liu, Zhicong Lu, Yangbin Yu, Mingyu Yang, Junyou Li, Deheng Ye, Jie Jiang,
- Abstract要約: 本稿では,新しい2段階自己進化型モバイルGUIエージェントを提案する。
最初の段階では、完全に自律的なループでデータとモデルの継続的な共進化を可能にするRejection Fine-Tuning (RFT) を採用しています。
第2段階はグループ相対自己蒸留(GRSD)を導入し、グループロールアウトにおける重要なフォークポイントを特定し、成功軌道から失敗軌道の修正に至るまで、密度の高いステップレベルの監視を構築する。
- 参考スコア(独自算出の注目度): 56.50613398808361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous mobile GUI agents have attracted increasing attention along with the advancement of Multimodal Large Language Models (MLLMs). However, existing methods still suffer from inefficient learning from failed trajectories and ambiguous credit assignment under sparse rewards for long-horizon GUI tasks. To that end, we propose UI-Voyager, a novel two-stage self-evolving mobile GUI agent. In the first stage, we employ Rejection Fine-Tuning (RFT), which enables the continuous co-evolution of data and models in a fully autonomous loop. The second stage introduces Group Relative Self-Distillation (GRSD), which identifies critical fork points in group rollouts and constructs dense step-level supervision from successful trajectories to correct failed ones. Extensive experiments on AndroidWorld show that our 4B model achieves an 81.0% Pass@1 success rate, outperforming numerous recent baselines and exceeding human-level performance. Ablation and case studies further verify the effectiveness of GRSD. Our method represents a significant leap toward efficient, self-evolving, and high-performance mobile GUI automation without expensive manual data annotation.
- Abstract(参考訳): 自律移動型GUIエージェントは、MLLM(Multimodal Large Language Models)の発展とともに注目されている。
しかし、既存の手法は、長い水平GUIタスクのスパース報酬の下で、失敗した軌道からの非効率な学習や、曖昧なクレジット割り当てに悩まされている。
そこで我々は,新しい2段階自己進化型モバイルGUIエージェントであるUI-Voyagerを提案する。
最初の段階では、完全に自律的なループでデータとモデルの継続的な共進化を可能にするRejection Fine-Tuning (RFT) を採用しています。
第2段階はグループ相対自己蒸留(GRSD)を導入し、グループロールアウトにおける重要なフォークポイントを特定し、成功軌道から失敗軌道の修正に至るまで、密度の高いステップレベルの監視を構築する。
AndroidWorldの大規模な実験によると、我々の4Bモデルは81.0%のPass@1成功率を達成し、最近のベースラインを上回り、人間レベルのパフォーマンスを上回っている。
アブレーションとケーススタディはGRSDの有効性をさらに検証する。
本手法は,高コストな手動データアノテーションを使わずに,効率的で自己進化的で高性能なモバイルGUI自動化を実現するための重要な一歩である。
関連論文リスト
- MagicGUI-RMS: A Multi-Agent Reward Model System for Self-Evolving GUI Agents via Automated Feedback Reflux [37.49192877577783]
本稿では,適応軌道評価,修正フィードバック,自己進化学習機能を実現するマルチエージェント報酬モデルシステムMagicGUI-RMSを提案する。
大規模な報酬学習を支援するため、バランスの取れた多様な報酬データセットを自動的に生成する構造化データ構築パイプラインを設計する。
実験により、MagicGUI-RMSはタスクの正確性、振る舞いの堅牢性においてかなりの利益をもたらすことが示された。
論文 参考訳(メタデータ) (2026-01-19T13:50:43Z) - EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration [16.593979443102754]
エージェントに動的にアクセス可能なメモリを装備することで、人間のような体験学習を模倣する新しいフレームワークであるEchoTrail-GUIを紹介する。
まず、エージェントがGUI環境と自律的に対話して、成功しているタスク軌跡のキュレートされたデータベースを構築し、報酬モデルで検証する。
第2に、メモリインジェクションの段階では、新しいタスクを受信すると、最も関連性の高い過去の軌跡を効率よく検索して「記憶」として機能させる。
第3に、GUIタスク推論において、これらの記憶は、エージェントの推論と意思決定プロセスに通知するためのコンテキスト内ガイダンスとして注入される。
論文 参考訳(メタデータ) (2025-12-22T13:42:18Z) - Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents [36.99267272275733]
モバイル環境におけるGUIエージェントを強化するためのオンラインエージェント強化学習フレームワークMobileRLを提案する。
コアコンポーネントはDifficulty-ADAptive GRPO (ADAGRPO) アルゴリズムである。
マルチターンエージェントタスクにおけるタスク長に関する報酬を再構成するための最短パス報酬調整戦略を導入する。
論文 参考訳(メタデータ) (2025-09-10T13:09:27Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents [37.871793585090586]
GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。
軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。
UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:58:06Z) - AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。