論文の概要: Generalization in Online Reinforcement Learning for Mobile Agents
- arxiv url: http://arxiv.org/abs/2603.07432v1
- Date: Sun, 08 Mar 2026 03:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.586306
- Title: Generalization in Online Reinforcement Learning for Mobile Agents
- Title(参考訳): 移動エージェントのオンライン強化学習における一般化
- Authors: Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang,
- Abstract要約: 我々は、目に見えないタスクインスタンス、テンプレート、アプリケーションに対してゼロショットの一般化を評価するベンチマークであるtextbfAndroidWorld-Generalizationを紹介する。
AndroidWorld-Generalizationの実験によると、RLは7BパラメータのVLMエージェントを教師付き微調整ベースラインを超えることができる。
サポートと公正な比較のために、環境、タスクスイート、モデル、プロンプト構成、基盤となるインフラストラクチャを含む完全なRLトレーニングシステムをオープンソース化しました。
- 参考スコア(独自算出の注目度): 32.98335803990582
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Graphical user interface (GUI)-based mobile agents automate digital tasks on mobile devices by interpreting natural-language instructions and interacting with the screen. While recent methods apply reinforcement learning (RL) to train vision-language-model(VLM) agents in interactive environments with a primary focus on performance, generalization remains underexplored due to the lack of standardized benchmarks and open-source RL systems. In this work, we formalize the problem as a Contextual Markov Decision Process (CMDP) and introduce \textbf{AndroidWorld-Generalization}, a benchmark with three increasingly challenging regimes for evaluating zero-shot generalization to unseen task instances, templates, and applications. We further propose an RL training system that integrates Group Relative Policy Optimization (GRPO) with a scalable rollout collection system, consisting of containerized infrastructure and asynchronous execution % , and error recovery to support reliable and efficient training. Experiments on AndroidWorld-Generalization show that RL enables a 7B-parameter VLM agent to surpass supervised fine-tuning baselines, yielding a 26.1\% improvement on unseen instances but only limited gains on unseen templates (15.7\%) and apps (8.3\%), underscoring the challenges of generalization. As a preliminary step, we demonstrate that few-shot adaptation at test-time improves performance on unseen apps, motivating future research in this direction. To support reproducibility and fair comparison, we open-source the full RL training system, including the environment, task suite, models, prompt configurations, and the underlying infrastructure \footnote{https://github.com/zihuanjiang/AndroidWorld-Generalization}.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)ベースのモバイルエージェントは、自然言語命令を解釈して画面と対話することで、モバイルデバイス上のデジタルタスクを自動化する。
近年,対話型環境における視覚言語モデル(VLM)エージェントの学習には強化学習(RL)が適用されているが,標準ベンチマークやオープンソースのRLシステムが欠如しているため,一般化は未検討である。
本研究では,この問題をCMDP(Contextual Markov Decision Process)として定式化し,未確認のタスクインスタンス,テンプレート,アプリケーションに対してゼロショットの一般化を評価するための3つの課題を持つベンチマークである \textbf{AndroidWorld-Generalization} を導入する。
さらに,グループ相対政策最適化(GRPO)をコンテナ化インフラストラクチャと非同期実行率%からなるスケーラブルなロールアウトコレクションシステムと統合し,信頼性と効率的なトレーニングを支援するためのエラー回復を行うRLトレーニングシステムを提案する。
AndroidWorld-Generalizationの実験によると、RLは7BパラメータのVLMエージェントを教師付き微調整ベースラインを越え、26.1\%改善するが、未確認テンプレート(15.7\%)とアプリ(8.3\%)でしか利益が得られず、一般化の難しさを浮き彫りにしている。
予備的なステップとして、テスト時の少数ショット適応は、目に見えないアプリのパフォーマンスを改善し、この方向への将来の研究を動機付けていることを実証する。
再現性と公正な比較をサポートするため,環境,タスクスイート,モデル,プロンプト構成,基盤となるインフラストラクチャである‘footnote{https://github.com/zihuanjiang/AndroidWorld-Generalization}などを含む,完全なRLトレーニングシステムをオープンソースとして公開しています。
関連論文リスト
- EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence [17.644658293987955]
身体的AIエージェントは、物理的環境における堅牢な空間認識、効果的なタスク計画、適応実行を行うことができる。
現在の大規模言語モデル (LLMs) とマルチモーダルLLM (MLLMs) の具体化タスクは、重要な制約に悩まされている。
EmbodiedBrain は 7B と 32B のパラメータサイズで利用できる新しい視覚言語基盤モデルである。
論文 参考訳(メタデータ) (2025-10-23T14:05:55Z) - Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z) - InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - MobileIPL: Enhancing Mobile Agents Thinking Process via Iterative Preference Learning [45.46445208254837]
The Chain of Action-Planning Thoughts (CoaT) paradigm has been shown to improve the reasoning performance of VLM-based mobile agent in GUI task。
対話型サンプリングによりCoaTツリーを構築し,ルールベース報酬を用いて葉ノードをスコアし,フィードバックをバックプロパゲートして思考レベル直接選好最適化(T-DPO)のペアを導出する反復選好学習(IPL)を提案する。
論文 参考訳(メタデータ) (2025-05-18T08:28:05Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。