論文の概要: Mobile-R1: Towards Interactive Reinforcement Learning for VLM-Based Mobile Agent via Task-Level Rewards
- arxiv url: http://arxiv.org/abs/2506.20332v1
- Date: Wed, 25 Jun 2025 11:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.71519
- Title: Mobile-R1: Towards Interactive Reinforcement Learning for VLM-Based Mobile Agent via Task-Level Rewards
- Title(参考訳): Mobile-R1:タスクレベルリワードによるVLMに基づくモバイルエージェントの対話型強化学習に向けて
- Authors: Jihao Gu, Qihang Ai, Yingyao Wang, Pi Bu, Jingxuan Xing, Zekun Zhu, Wei Jiang, Ziming Wang, Yingxiu Zhao, Ming-Liang Zhang, Jun Song, Yuning Jiang, Bo Zheng,
- Abstract要約: 対話型マルチターン強化学習とタスクレベルの報酬をモバイルエージェントに提供するMobile-R1を紹介する。
トレーニングフレームワークは,初期形式微調整,アクションレベル報酬によるワンステップオンライントレーニング,マルチターン軌道に基づくタスクレベル報酬によるオンライントレーニングの3段階で構成されている。
この戦略はMobile-R1の探索と誤り訂正機能を強化するために設計されており、大幅な性能向上につながっている。
- 参考スコア(独自算出の注目度): 29.467847768352282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language model-based mobile agents have gained the ability to not only understand complex instructions and mobile screenshots, but also optimize their action outputs via thinking and reasoning, benefiting from reinforcement learning, such as Group Relative Policy Optimization (GRPO). However, existing research centers on offline reinforcement learning training or online optimization using action-level rewards, which limits the agent's dynamic interaction with the environment. This often results in agents settling into local optima, thereby weakening their ability for exploration and error action correction. To address these challenges, we introduce an approach called Mobile-R1, which employs interactive multi-turn reinforcement learning with task-level rewards for mobile agents. Our training framework consists of three stages: initial format finetuning, single-step online training via action-level reward, followed by online training via task-level reward based on multi-turn trajectories. This strategy is designed to enhance the exploration and error correction capabilities of Mobile-R1, leading to significant performance improvements. Moreover, we have collected a dataset covering 28 Chinese applications with 24,521 high-quality manual annotations and established a new benchmark with 500 trajectories. We will open source all resources, including the dataset, benchmark, model weight, and codes: https://mobile-r1.github.io/Mobile-R1/.
- Abstract(参考訳): 視覚言語モデルに基づくモバイルエージェントは、複雑な命令やモバイルスクリーンショットだけでなく、グループ相対ポリシー最適化(GRPO)のような強化学習の恩恵を受けながら、思考と推論を通じてアクションアウトプットを最適化する能力も手に入れた。
しかし、既存の研究は、エージェントの環境との動的相互作用を制限するアクションレベル報酬を用いたオフライン強化学習トレーニングやオンライン最適化に重点を置いている。
この結果、しばしばエージェントが局所的な最適状態に落ち着き、探索と誤り行動補正の能力が弱まる。
これらの課題に対処するために,モバイルエージェントに対するタスクレベル報酬と対話型マルチターン強化学習を用いたMobile-R1というアプローチを導入する。
トレーニングフレームワークは,初期形式微調整,アクションレベル報酬によるワンステップオンライントレーニング,マルチターン軌道に基づくタスクレベル報酬によるオンライントレーニングの3段階で構成されている。
この戦略はMobile-R1の探索と誤り訂正機能を強化するために設計されており、大幅な性能向上につながっている。
さらに,中国の28のアプリケーションを対象に,高品質なマニュアルアノテーション24,521のデータセットを収集し,500のトラジェクトリを用いた新しいベンチマークを構築した。
データセット、ベンチマーク、モデルウェイト、コードを含むすべてのリソースをオープンソースにします。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Continuously Improving Mobile Manipulation with Autonomous Real-World RL [33.085671103158866]
モバイル操作のための完全に自律的な実世界のRLフレームワークを提案する。
これはタスク関連自律性によって実現され、これはオブジェクトのインタラクションへの探索をガイドし、目標状態付近の停滞を防ぐ。
我々は,Spotロボットがモバイル操作タスクの4つの課題に対して,継続的なパフォーマンス向上を可能にすることを実証した。
論文 参考訳(メタデータ) (2024-09-30T17:59:50Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning
and SLAM Based Approach [7.488722678999039]
本研究では,未知環境下を走行する移動ロボットを対象とした,深層強化学習(DRL)に基づくマップレス経路計画アルゴリズムを提案する。
プランナーは、トレーニング環境の地図のオンライン知識に基づいて、報酬関数を用いて訓練される。
シミュレーション環境で訓練されたポリシーを直接、実際のロボットに転送し、成功させることができる。
論文 参考訳(メタデータ) (2020-02-10T22:00:16Z) - MDLdroid: a ChainSGD-reduce Approach to Mobile Deep Learning for
Personal Mobile Sensing [14.574274428615666]
デバイス上でのディープラーニングの実行には、データのプライバシ保護や、モデルの堅牢性とアップデートの両方に対する低レイテンシ応答など、いくつかのメリットがある。
パーソナルモバイルセンシングアプリケーションは、主にユーザ固有であり、環境の影響を受けやすい。
我々は,デバイス上での協調学習を実現するために,新たな分散モバイルディープラーニングフレームワークであるMDLdroidを提案する。
論文 参考訳(メタデータ) (2020-02-07T16:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。