論文の概要: CRL-VLA: Continual Vision-Language-Action Learning
- arxiv url: http://arxiv.org/abs/2602.03445v1
- Date: Tue, 03 Feb 2026 12:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.43588
- Title: CRL-VLA: Continual Vision-Language-Action Learning
- Title(参考訳): CRL-VLA:連続的な視覚・言語・行動学習
- Authors: Qixin Zeng, Shuo Zhang, Hongyin Zhang, Renjie Wang, Han Zhao, Libang Zhao, Runze Li, Donglin Wang, Chao Huang,
- Abstract要約: 連続強化学習は、生涯にわたるロボットシナリオにVLAモデルをデプロイするための、有望な経路である。
本稿では,厳密な理論的境界を持つVLAモデルの連続的な後学習のためのフレームワークであるCRL-VLAを紹介する。
安定塑性トレードオフと目標条件付き有利度をリンクする統一的な性能境界を,政策のばらつきによって拡張する。
- 参考スコア(独自算出の注目度): 40.18167835795084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lifelong learning is critical for embodied agents in open-world environments, where reinforcement learning fine-tuning has emerged as an important paradigm to enable Vision-Language-Action (VLA) models to master dexterous manipulation through environmental interaction. Thus, Continual Reinforcement Learning (CRL) is a promising pathway for deploying VLA models in lifelong robotic scenarios, yet balancing stability (retaining old skills) and plasticity (learning new ones) remains a formidable challenge for existing methods. We introduce CRL-VLA, a framework for continual post-training of VLA models with rigorous theoretical bounds. We derive a unified performance bound linking the stability-plasticity trade-off to goal-conditioned advantage magnitude, scaled by policy divergence. CRL-VLA resolves this dilemma via asymmetric regulation: constraining advantage magnitudes on prior tasks while enabling controlled growth on new tasks. This is realized through a simple but effective dual-critic architecture with novel Goal-Conditioned Value Formulation (GCVF), where a frozen critic anchors semantic consistency and a trainable estimator drives adaptation. Experiments on the LIBERO benchmark demonstrate that CRL-VLA effectively harmonizes these conflicting objectives, outperforming baselines in both anti-forgetting and forward adaptation.
- Abstract(参考訳): 生命の学習は、環境相互作用を通じて外在的操作をマスターできるビジョン・ランゲージ・アクション(VLA)モデルを実現するための重要なパラダイムとして、強化学習の微調整が出現する、オープンワールド環境におけるエンボディエージェントにとって重要である。
このように、継続強化学習(CRL)は、生涯にわたるロボットシナリオにVLAモデルをデプロイする上で有望な経路であるが、安定性(古いスキルを保持すること)と塑性(新しいスキルを学ぶこと)のバランスは、既存の方法にとって大きな課題である。
本稿では,厳密な理論的境界を持つVLAモデルの連続的な後学習のためのフレームワークであるCRL-VLAを紹介する。
安定塑性トレードオフと目標条件付き有利度をリンクする統一的な性能境界を,政策のばらつきによって拡張する。
CRL-VLAはこのジレンマを非対称な規制によって解決し、新しいタスクの制御された成長を可能にしつつ、前タスクの優位性を制限している。
これは、フリーズされた批評家がセマンティック一貫性を保ち、トレーニング可能な推定器が適応を駆動する、新しいゴール・コンディションド・バリュー・フォーミュレーション(GCVF)による単純だが効果的な二重批判アーキテクチャによって実現される。
LIBEROベンチマークの実験では、CRL-VLAはこれらの対立する目標を効果的に調和させ、アンチフォッゲッティングとフォワードアダプションの両方においてベースラインを上回っている。
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - RobustVLA: Robustness-Aware Reinforcement Post-Training for Vision-Language-Action Models [33.503927352666096]
Vision-Language-Action (VLA)モデルは、配布外デプロイメントにおいて確実に一般化できない。
本稿では,VLAモデルのレジリエンスを明示的に向上するための軽量オンラインRLポストトレーニング手法であるRobustVLAを紹介する。
本研究は,VLAモデルの信頼性向上とロバスト性向上に向けた重要なステップとして,ロバストネスを意識したRLポストトレーニングの重要性を強調した。
論文 参考訳(メタデータ) (2025-11-03T08:30:48Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning [38.68600863590734]
変分部分決定強化学習(VSC-RL)という新しい枠組みを提案する。
VSC-RLは、新たな最適化目標であるサブゴールエビデンス・ロウアーバウンド(Subgoal Evidence Lower Bound)を用いて、変分サブゴール条件付きRL問題として決定問題を再構成する。
我々は,VSC-RLが性能保証を損なうことなく,学習効率を効率的に向上できることを理論的かつ実証的に実証した。
論文 参考訳(メタデータ) (2025-02-11T20:57:46Z) - Mitigating Distribution Shift in Model-based Offline RL via Shifts-aware Reward Learning [36.01269673940484]
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
我々の理論的および実証的研究は、これらの要因がどのように価値推定と政策最適化を歪めているかを明らかにする。
我々は、バニラ報酬を改良し、価値学習を洗練させ、政策訓練を促進する統一確率的推論フレームワークを通じて、新しいシフトアウェア報酬を導出する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。