論文の概要: VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.18719v1
- Date: Sat, 24 May 2025 14:42:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.614674
- Title: VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning
- Title(参考訳): VLA-RL: スケーラブル強化学習による高度で汎用的なロボットマニピュレーションを目指して
- Authors: Guanxing Lu, Wenkai Guo, Chubin Zhang, Yuheng Zhou, Haonan Jiang, Zifeng Gao, Yansong Tang, Ziwei Wang,
- Abstract要約: VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
- 参考スコア(独自算出の注目度): 14.099306230721245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent high-capacity vision-language-action (VLA) models have demonstrated impressive performance on a range of robotic manipulation tasks by imitating human demonstrations. However, exploiting offline data with limited visited states will cause execution failure in out-of-distribution scenarios. Intuitively, an exploration-based method that improves on online collected data at test time could address this limitation. We present VLA-RL, an algorithmic and systematic framework that leverages online reinforcement learning (RL) to improve pretrained auto-regressive VLAs in downstream tasks. Within a unified perspective, we first introduce a trajectory-level RL formulation for auto-regressive VLA training, which models general robotic manipulation trajectory as multi-modal multi-turn conversation. To address the challenge of sparse rewards, we fine-tune a pretrained vision-language model as a robotic process reward model, which is trained on pseudo reward labels annotated on automatically extracted task segments. To scale up, we identify several implementation findings that improve the stability and efficiency including curriculum selection strategy, GPU-balanced vectorized environments, batch decoding, and critic warmup. VLA-RL enables OpenVLA-7B to surpass the strongest finetuned baseline by 4.5% on 40 challenging robotic manipulation tasks in LIBERO, and even matches the performance of advanced commercial models such as $\pi_0$-FAST. Notably, we observe that VLA-RL benefits from increased test-time optimization, indicating an early spark of inference scaling laws in robotics.
- Abstract(参考訳): 近年の高容量ビジョン言語アクション(VLA)モデルは、人間の実演を模倣して、様々なロボット操作タスクにおいて印象的な性能を発揮している。
しかし、限られた状態でオフラインデータを利用すると、配布外のシナリオで実行が失敗する。
直感的には、オンラインで収集されたデータをテスト時に改善する探索ベースの手法は、この制限に対処できる。
本稿では、オンライン強化学習(RL)を活用して、下流タスクにおける事前学習された自己回帰VLAを改善するアルゴリズム的かつ体系的なフレームワークであるVLA-RLを提案する。
統合された視点の中では、まず、自動回帰VLAトレーニングのための軌道レベルのRL定式化を導入し、マルチモーダルなマルチターン会話として一般的なロボット操作トラジェクトリをモデル化する。
スパース報酬の課題に対処するため,ロボットプロセス報酬モデルとして事前学習された視覚言語モデルを微調整し,自動抽出されたタスクセグメントにアノテートされた擬似報酬ラベルに基づいて訓練する。
スケールアップのために、カリキュラム選択戦略、GPUバランスのベクター化された環境、バッチデコーディング、批判ウォームアップなど、安定性と効率を向上させるいくつかの実装結果を特定した。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクに対して4.5%の細調整されたベースラインを越え、$\pi_0$-FASTのような高度な商用モデルのパフォーマンスに匹敵する。
特に、VLA-RLは、ロボット工学における推論スケーリング法則の早期の引き金となり、テスト時間最適化の恩恵を受けている。
関連論文リスト
- Improving Vision-Language-Action Model with Online Reinforcement Learning [17.043068379668842]
近年の研究では、教師付き微調整により、大規模視覚言語モデルを低レベルロボット制御に統合することに成功した。
VLAモデルを効果的に改善するために、強化学習と監視学習を反復するiRe-VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-28T02:53:48Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement
Learning [27.00483962026472]
現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。
実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。
提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
論文 参考訳(メタデータ) (2023-09-13T13:18:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。