論文の概要: VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators
- arxiv url: http://arxiv.org/abs/2510.00406v1
- Date: Wed, 01 Oct 2025 01:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.186875
- Title: VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators
- Title(参考訳): VLA-RFT:世界シミュレータにおける検証されたリワードを用いたビジョンランゲージ・アクション強化微調整
- Authors: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su,
- Abstract要約: VLA(Vision-Language-Action)モデルは、具体的意思決定を可能にするが、模倣学習に大きく依存する。
制御可能なシミュレータとしてデータ駆動世界モデルを利用する強化微調整フレームワークであるVLA-RFTを紹介する。
400歩未満の微調整ステップで、VLA-RFTは強い教師付きベースラインを超え、シミュレータベースのRLよりも高い効率を達成する。
- 参考スコア(独自算出の注目度): 38.880852900641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models enable embodied decision-making but rely heavily on imitation learning, leading to compounding errors and poor robustness under distribution shift. Reinforcement learning (RL) can mitigate these issues yet typically demands costly real-world interactions or suffers from sim-to-real gaps. We introduce VLA-RFT, a reinforcement fine-tuning framework that leverages a data-driven world model as a controllable simulator. Trained from real interaction data, the simulator predicts future visual observations conditioned on actions, allowing policy rollouts with dense, trajectory-level rewards derived from goal-achieving references. This design delivers an efficient and action-aligned learning signal, drastically lowering sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses strong supervised baselines and achieves greater efficiency than simulator-based RL. Moreover, it exhibits strong robustness under perturbed conditions, sustaining stable task execution. Our results establish world-model-based RFT as a practical post-training paradigm to enhance the generalization and robustness of VLA models. For more details, please refer to https://vla-rft.github.io/.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、具体的意思決定を可能にするが、模倣学習に大きく依存する。
強化学習(Reinforcement Learning, RL)はこれらの問題を緩和するが、一般的にはコストのかかる現実世界の相互作用を必要とする。
制御可能なシミュレータとしてデータ駆動世界モデルを利用する強化微調整フレームワークであるVLA-RFTを紹介する。
実際のインタラクションデータからトレーニングされたシミュレータは、アクションに条件付けられた将来の視覚的観察を予測し、ゴール達成基準から引き出された、密集した軌道レベルの報酬を持つポリシーのロールアウトを可能にする。
この設計は、効率的で行動に整合した学習信号を提供し、サンプル要求を大幅に低下させる。
400歩未満の微調整ステップで、VLA-RFTは強い教師付きベースラインを超え、シミュレータベースのRLよりも高い効率を達成する。
さらに、摂動条件下では強い堅牢性を示し、安定したタスク実行を維持できる。
本研究では,VLAモデルの一般化とロバスト性を高めるための実践的ポストトレーニングパラダイムとして,世界モデルに基づくRFTを確立した。
詳細はhttps://vla-rft.github.io/を参照してください。
関連論文リスト
- VLA-R1: Enhancing Reasoning in Vision-Language-Action Models [35.264042764326895]
VLA(Vision-Language-Action)モデルは、知覚、言語理解、行動生成を統一することを目的としている。
現在のVLAモデルは、しばしば明示的なステップバイステップ推論を欠いている。
本稿では,検証リワードからの強化学習を統合した推論強化VLAであるVLA-R1を提案する。
論文 参考訳(メタデータ) (2025-10-02T02:54:03Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models [29.090093552573766]
本稿では,VLA(Vision-Language-Action)フローモデルに対するオフラインRLポストトレーニング目標を提案する。
次に、効率よく実現可能なオフラインRL微調整アルゴリズム -- Adaptive Reinforced Flow Matching (ARFM) を誘導する。
ARFMは優れた一般化、堅牢性、少数ショット学習、継続的な学習性能を示す。
論文 参考訳(メタデータ) (2025-09-04T09:48:43Z) - RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。
次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。
微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。