論文の概要: Towards Long-Lived Robots: Continual Learning VLA Models via Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.10503v1
- Date: Wed, 11 Feb 2026 04:05:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.352015
- Title: Towards Long-Lived Robots: Continual Learning VLA Models via Reinforcement Fine-Tuning
- Title(参考訳): 長寿命ロボットを目指して:強化微細調整による連続学習VLAモデル
- Authors: Yuan Liu, Haoran Li, Shuai Tian, Yuxing Qin, Yuhui Chen, Yupeng Zheng, Yongzhen Huang, Dongbin Zhao,
- Abstract要約: LifeLong-RFTは、VLAモデルの簡易かつ効果的な強化微細チューニング(RFT)戦略である。
LifeLong-RFTは、チャンキングレベルのオンライン強化学習と、提案した多次元プロセスリワード(MDPR)機構を統合する。
本手法は,SFTよりも平均成功率を22%向上させると同時に,トレーニングデータの20%のみを用いて,新たなタスクに効果的に適応する。
- 参考スコア(独自算出の注目度): 34.29473529235131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained on large-scale and diverse datasets, VLA models demonstrate strong generalization and adaptability as general-purpose robotic policies. However, Supervised Fine-Tuning (SFT), which serves as the primary mechanism for adapting VLAs to downstream domains, requires substantial amounts of task-specific data and is prone to catastrophic forgetting. To address these limitations, we propose LifeLong-RFT, a simple yet effective Reinforcement Fine-Tuning (RFT) strategy for VLA models independent of online environmental feedback and pre-trained reward models. By integrating chunking-level on-policy reinforcement learning with the proposed Multi-Dimensional Process Reward (MDPR) mechanism, LifeLong-RFT quantifies the heterogeneous contributions of intermediate action chunks across three dimensions to facilitate policy optimization. Specifically, (1) the Quantized Action Consistency Reward (QACR) ensures accurate action prediction within the discrete action space; (2) the Continuous Trajectory Alignment Reward (CTAR) aligns decoded continuous action chunks with reference trajectories to ensure precise control; (3) the Format Compliance Reward (FCR) guarantees the structural validity of outputs. Comprehensive experiments across SimplerEnv, LIBERO, and real-world tasks demonstrate that LifeLong-RFT exhibits strong performance in multi-task learning. Furthermore, for continual learning on the LIBERO benchmark, our method achieves a 22% gain in average success rate over SFT, while effectively adapting to new tasks using only 20% of the training data. Overall, our method provides a promising post-training paradigm for VLAs.
- Abstract(参考訳): 大規模で多様なデータセットで事前訓練されたVLAモデルは、汎用ロボットポリシーとして強力な一般化と適応性を示す。
しかし、VLAを下流領域に適応させる主要なメカニズムとして機能するSupervised Fine-Tuning (SFT) は、かなりの量のタスク固有のデータを必要とし、破滅的な忘れがちである。
これらの制約に対処するために、オンライン環境フィードバックや事前訓練された報酬モデルに依存しないVLAモデルの簡易かつ効果的な強化細調整(RFT)戦略であるLifeLong-RFTを提案する。
チャンキングレベルのオンライン強化学習を多次元プロセスリワード(MDPR)機構と統合することにより、LifeLong-RFTは3次元にわたる中間作用チャンクの不均一な寄与を定量化し、政策最適化を容易にする。
具体的には、(1)量子化アクション整合性リワード(QACR)は、離散的なアクション空間内での正確なアクション予測を保証し、(2)連続トラジェクトリアライメントリワード(CTAR)は、デコードされた連続アクションチャンクを参照トラジェクトリと整列させて、正確な制御を確実にし、(3)フォルマコンプライアンスリワード(FCR)は出力の構造的妥当性を保証する。
SimplerEnv, LIBERO, および実世界のタスクに対する総合的な実験は、LifeLong-RFTがマルチタスク学習において強力なパフォーマンスを示していることを示している。
さらに, LIBEROベンチマークの連続学習では, SFTよりも平均成功率が22%向上し, トレーニングデータの20%を効果的に適用した。
全体として,本手法は,VLAに対して有望なポストトレーニングパラダイムを提供する。
関連論文リスト
- IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation [2.7426517026004196]
VLA(Vision-Language-Action)モデルは、ジェネラリストのロボット政策において大きな可能性を示している。
彼らは、分散シフトと高品質なデモンストレーションの不足により、新しい現実世界の領域における長期の複雑なタスクへの一般化に苦慮している。
本稿では,フローベースVLAモデル用に設計された対話型強化微細チューニングシステムIG-RFTを提案する。
論文 参考訳(メタデータ) (2026-02-24T09:19:50Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation [7.500999283386335]
残留フローステアリング(Residual Flow Steering、RFS)は、事前訓練された生成ポリシーを適用するためのデータ効率の強化学習フレームワークである。
RFSは、残留動作と潜時雑音分布を協調的に最適化することにより、事前訓練されたフローマッチングポリシーを操る。
シミュレーションと実世界の両方の設定において, RFS が効率よく微調整できることを示す。
論文 参考訳(メタデータ) (2026-02-02T08:11:57Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Self-Improving Vision-Language-Action Models with Data Generation via Residual RL [29.682761652941963]
Probe, Learn, Distill (PLD)は3段階のプラグイン・アンド・プレイフレームワークで、視覚言語アクションモデルを改善する。
PLDはLIBEROでほぼ飽和した99%のタスク成功、SimplerEnvで50%以上、実世界のFrankaとYAMのアーム操作タスクで100%成功している。
論文 参考訳(メタデータ) (2025-10-30T06:24:04Z) - CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning [7.780242426487376]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのための新しい強化学習フレームワークであるチャンクドRLを提案する。
このフレームワーク内では、VLAモデルの顕著な特徴であるアクションチャンキングを組み込むために、時間差(TD)学習を拡張する。
次に、限定的なデモセットを用いてVLAモデルを微調整するアルゴリズムであるCO-RFTを提案する。
論文 参考訳(メタデータ) (2025-08-04T09:11:48Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。