論文の概要: Self-Improving Vision-Language-Action Models with Data Generation via Residual RL
- arxiv url: http://arxiv.org/abs/2511.00091v1
- Date: Thu, 30 Oct 2025 06:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.579499
- Title: Self-Improving Vision-Language-Action Models with Data Generation via Residual RL
- Title(参考訳): 残差RLを用いたデータ生成による自己改善型ビジョンランゲージ・アクションモデル
- Authors: Wenli Xiao, Haotian Lin, Andy Peng, Haoru Xue, Tairan He, Yuqi Xie, Fengyuan Hu, Jimmy Wu, Zhengyi Luo, Linxi "Jim" Fan, Guanya Shi, Yuke Zhu,
- Abstract要約: Probe, Learn, Distill (PLD)は3段階のプラグイン・アンド・プレイフレームワークで、視覚言語アクションモデルを改善する。
PLDはLIBEROでほぼ飽和した99%のタスク成功、SimplerEnvで50%以上、実世界のFrankaとYAMのアーム操作タスクで100%成功している。
- 参考スコア(独自算出の注目度): 29.682761652941963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) has become the de facto post-training strategy for large vision-language-action (VLA) models, but its reliance on costly human demonstrations limits scalability and generalization. We propose Probe, Learn, Distill (PLD), a three-stage plug-and-play framework that improves VLAs through residual reinforcement learning (RL) and distribution-aware data collection. In Stage 1, we train lightweight residual actors to probe failure regions of the VLA generalist. In Stage 2, we use a hybrid rollout scheme that aligns collected trajectories with the generalist's deployment distribution while capturing recovery behaviors. In Stage 3, we distill the curated trajectories back into the generalist with standard SFT. PLD achieves near-saturated 99% task success on LIBERO, over 50% gains in SimplerEnv, and 100% success on real-world Franka and YAM arm manipulation tasks. Ablations show that residual probing and distribution-aware replay are key to collecting deployment-aligned data that improves both seen and unseen tasks, offering a scalable path toward self-improving VLA models.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、大規模な視覚言語アクション(VLA)モデルのための事実上のポストトレーニング戦略となっているが、コストのかかる人間による実演への依存はスケーラビリティと一般化を制限している。
本稿では,3段階のプラグアンドプレイフレームワークであるProbe, Learn, Distill (PLD)を提案する。
ステージ1では、軽量残留アクターを訓練し、VLAジェネラリストの障害領域を探索する。
ステージ2では,収集したトラジェクトリとジェネラリストのデプロイメント分布を一致させるハイブリッドロールアウト方式を用いて,リカバリ動作をキャプチャする。
ステージ3では、硬化した軌道を標準SFTで一般に蒸留する。
PLDはLIBEROでほぼ飽和した99%のタスク成功、SimplerEnvで50%以上、実世界のFrankaとYAMのアーム操作タスクで100%成功している。
アブレーションは、残差探索と分散認識リプレイが、見知らぬタスクと見えないタスクの両方を改善し、自己改善VLAモデルへのスケーラブルなパスを提供する、デプロイメント整合したデータ収集の鍵であることを示している。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning [7.780242426487376]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのための新しい強化学習フレームワークであるチャンクドRLを提案する。
このフレームワーク内では、VLAモデルの顕著な特徴であるアクションチャンキングを組み込むために、時間差(TD)学習を拡張する。
次に、限定的なデモセットを用いてVLAモデルを微調整するアルゴリズムであるCO-RFTを提案する。
論文 参考訳(メタデータ) (2025-08-04T09:11:48Z) - RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models [11.688277445120567]
VLA(Vision-Language-Action Model)は、複雑なロボット操作タスクを解く上で、目覚ましい能力と有望な可能性を示してきた。
パラメータのかなりのサイズと高い推論レイテンシは、現実世界のデプロイメントに重大な課題をもたらします。
圧縮VLAの3段階回収法であるRLRCを提案する。
論文 参考訳(メタデータ) (2025-06-21T08:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。