論文の概要: MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents
- arxiv url: http://arxiv.org/abs/2509.18119v1
- Date: Wed, 10 Sep 2025 13:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.380614
- Title: MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents
- Title(参考訳): MobileRL:モバイルGUIエージェントのためのオンラインエージェント強化学習
- Authors: Yifan Xu, Xiao Liu, Xinghan Liu, Jiaqi Fu, Hanchen Zhang, Bohao Jing, Shudan Zhang, Yuting Wang, Wenyi Zhao, Yuxiao Dong,
- Abstract要約: モバイル環境におけるGUIエージェントを強化するオンラインエージェント強化学習フレームワークMOBILERLを提案する。
コアコンポーネントはDifficulty-Adaptive GRPO (ADAGRPO) アルゴリズムである。
マルチターンエージェントタスクにおけるタスク長に関する報酬を再生成するために,最短経路報酬調整方式を導入する。
その結果、MoBILERL-9Bモデルは、AndroidWorld(75.8%)とAndroidLab(46.8%)の両方で最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 36.99267272275733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building general-purpose graphical user interface (GUI) agents has become increasingly promising with the progress in vision language models. However, developing effective mobile GUI agents with reinforcement learning (RL) remains challenging due to the heavy-tailed distribution of task difficulty and the inefficiency of large-scale environment sampling. We present an online agentic reinforcement learning framework MOBILERL to enhance GUI agents in mobile environments. Its core component is the Difficulty-Adaptive GRPO (ADAGRPO) algorithm. In ADAGRPO, we design difficulty-adaptive positive replay and failure curriculum filtering to adapt the model to different task difficulties. We introduce the shortest path reward adjustment strategy to reshape rewards concerning the task length in multi-turn agentic tasks. Those strategies jointly stabilize RL training, improve sample efficiency, and generate strong performance across diverse mobile apps and tasks. We apply MOBILERL to two open models (Qwen2.5-VL-7B-Instruct and GLM-4.1V-9B-Base). The resultant MOBILERL-9B model achieves state-of-the-art results in terms of success rates on both AndroidWorld (75.8%) and AndroidLab (46.8%). The MOBILERL framework is adopted in the AutoGLM products, and also open-sourced at https://github.com/THUDM/MobileRL.
- Abstract(参考訳): 汎用グラフィカルユーザインタフェース(GUI)エージェントの構築は、視覚言語モデルの進歩により、ますます有望になっている。
しかし,タスクの難易度と大規模環境サンプリングの非効率性のために,強化学習(RL)を用いた効果的な移動GUIエージェントの開発は依然として困難である。
モバイル環境におけるGUIエージェントを強化するオンラインエージェント強化学習フレームワークMOBILERLを提案する。
コアコンポーネントはDifficulty-Adaptive GRPO (ADAGRPO) アルゴリズムである。
ADAGRPOでは,タスク難易度が異なるモデルに適応するために,困難適応型ポジティブリプレイと障害カリキュラムフィルタを設計する。
マルチターンエージェントタスクにおけるタスク長に関する報酬を再生成するために,最短経路報酬調整方式を導入する。
これらの戦略は共同でRLトレーニングを安定化し、サンプル効率を改善し、さまざまなモバイルアプリやタスク間で強力なパフォーマンスを生み出す。
我々はMOBILERLを2つのオープンモデル(Qwen2.5-VL-7B-InstructとGLM-4.1V-9B-Base)に適用する。
結果のMOBILERL-9Bモデルは、AndroidWorld(75.8%)とAndroidLab(46.8%)の両方の成功率の観点から、最先端の結果を達成する。
MOBILERLフレームワークはAutoGLM製品で採用されており、https://github.com/THUDM/MobileRLでオープンソース化されている。
関連論文リスト
- UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Mobile-R1: Towards Interactive Reinforcement Learning for VLM-Based Mobile Agent via Task-Level Rewards [29.467847768352282]
対話型マルチターン強化学習とタスクレベルの報酬をモバイルエージェントに提供するMobile-R1を紹介する。
トレーニングフレームワークは,初期形式微調整,アクションレベル報酬によるワンステップオンライントレーニング,マルチターン軌道に基づくタスクレベル報酬によるオンライントレーニングの3段階で構成されている。
この戦略はMobile-R1の探索と誤り訂正機能を強化するために設計されており、大幅な性能向上につながっている。
論文 参考訳(メタデータ) (2025-06-25T11:34:43Z) - UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning [31.796328505473305]
UI-R1は、ルールベースのRLがGUIアクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力をどのように向上するかを探求する最初のフレームワークである。
具体的には、UI-R1が新しいルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする。
効率的なトレーニングのために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題タスクからなる、小さくて高品質なデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-27T15:39:30Z) - On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement
Learning [45.73223325256312]
最新のモデルベースRLアルゴリズムで学習した内部モデルが、新しい明らかに異なるタスクを高速に解くために活用できるかどうかを考察する。
我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。