論文の概要: What Can RL Bring to VLA Generalization? An Empirical Study
- arxiv url: http://arxiv.org/abs/2505.19789v2
- Date: Wed, 11 Jun 2025 05:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.213949
- Title: What Can RL Bring to VLA Generalization? An Empirical Study
- Title(参考訳): RLはVLAの一般化に何をもたらすのか? : 実証的研究
- Authors: Jijia Liu, Feng Gao, Bingwen Wei, Xinlei Chen, Qingmin Liao, Yi Wu, Chao Yu, Yu Wang,
- Abstract要約: VLA(Large Vision-Language Action)モデルは、AIを具現化する大きな可能性を示している。
教師付き微調整(SFT)による主な訓練は、分散シフト下での複合誤差による一般化を制限する。
本稿では,VLAの一般化評価のための総合的ベンチマークを導入し,RL微調整の影響を系統的に検討する。
- 参考スコア(独自算出の注目度): 42.58811485942049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Action (VLA) models have shown significant potential for embodied AI. However, their predominant training via supervised fine-tuning (SFT) limits generalization due to susceptibility to compounding errors under distribution shifts. Reinforcement learning (RL) offers a path to overcome these limitations by optimizing for task objectives via trial-and-error, yet a systematic understanding of its specific generalization benefits for VLAs compared to SFT is lacking. To address this, our study introduces a comprehensive benchmark for evaluating VLA generalization and systematically investigates the impact of RL fine-tuning across diverse visual, semantic, and execution dimensions. Our extensive experiments reveal that RL fine-tuning, particularly with PPO, significantly enhances generalization in semantic understanding and execution robustness over SFT, while maintaining comparable visual robustness. We identify PPO as a more effective RL algorithm for VLAs than LLM-derived methods like DPO and GRPO. We also develop a simple recipe for efficient PPO training on VLAs, and demonstrate its practical utility for improving VLA generalization. The project page is at https://rlvla.github.io
- Abstract(参考訳): VLA(Large Vision-Language Action)モデルは、AIを具現化する大きな可能性を示している。
しかし、教師付き微調整(SFT)による主な訓練は、分散シフト下での複合的エラーに対する感受性による一般化を制限している。
強化学習(Reinforcement Learning、RL)は、試行錯誤によるタスク目標の最適化によってこれらの制限を克服する道筋を提供するが、SFTと比較して、VLAの特定の一般化の利点について体系的な理解は欠如している。
そこで本研究では,VLAの一般化評価のための総合的ベンチマークを導入し,様々な視覚,意味,実行次元におけるRL微調整の影響を体系的に検討する。
我々の広範な実験により、特にPPOを用いたRL微調整は、視覚的堅牢性を維持しながら、意味的理解の一般化とSFTによる実行の堅牢性を大幅に向上させることが明らかとなった。
DPO や GRPO のような LLM 由来の手法よりも,より効率的な VLA の RL アルゴリズムとして PPO を同定する。
また、VLA上での効率的なPPOトレーニングのための簡単なレシピを開発し、VLAの一般化を改善するための実用性を実証する。
プロジェクトのページはhttps://rlvla.github.ioにある。
関連論文リスト
- Sample Efficient Reinforcement Learning via Large Vision Language Model Distillation [19.48826538310603]
大規模視覚言語モデル(LVLM)からより効率的な強化学習エージェントへ知識を抽出するフレームワークであるLVLM to Policy(LVLM2P)を紹介する。
提案手法はLVLMを教師として活用し,RLエージェントが収集した軌跡に基づく指導行動を提供する。
LVLM2Pは,ベースラインRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-05-16T13:15:54Z) - Good Actions Succeed, Bad Actions Generalize: A Case Study on Why RL Generalizes Better [0.3021678014343889]
監視学習(SL)と強化学習(RL)は、複雑なタスクのための汎用エージェントの訓練に広く用いられている。
本稿ではゼロショット一般化の観点からSLとRLを直接比較する。
論文 参考訳(メタデータ) (2025-03-19T21:03:27Z) - Refined Policy Distillation: From VLA Generalists to RL Experts [18.186499704928092]
本稿では,RLに基づく政策精錬法であるRefined Policy Distillation (RPD)を提案する。
RPDにより、RLエージェントは、密集した報酬設定とまばらな報酬設定の両方において、教師のパフォーマンスを上回る専門家のポリシーを学ぶことができる。
我々のアプローチは、カメラの視点の変化に対してさらに堅牢であり、基礎となるVLAが解決できないタスクのバリエーションに一般化することができる。
論文 参考訳(メタデータ) (2025-03-06T12:52:11Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。