論文の概要: Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.11653v1
- Date: Thu, 12 Mar 2026 08:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.960403
- Title: Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning
- Title(参考訳): 簡単なレシピワーク:視覚・言語・アクションモデルは強化学習を伴う自然な連続学習者である
- Authors: Jiaheng Hu, Jay Shim, Chen Tang, Yoonchang Sung, Bo Liu, Peter Stone, Roberto Martin-Martin,
- Abstract要約: 低ランク適応 (LoRA) の簡単なシーケンスファインチューニング (Seq. FT) は極めて強い。
VLAモデルを用いた連続RL法としてシーケンスファインタニング(Sequential Fine-Tuning)を応用した。
- 参考スコア(独自算出の注目度): 26.103428215400697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual Reinforcement Learning (CRL) for Vision-Language-Action (VLA) models is a promising direction toward self-improving embodied agents that can adapt in openended, evolving environments. However, conventional wisdom from continual learning suggests that naive Sequential Fine-Tuning (Seq. FT) leads to catastrophic forgetting, necessitating complex CRL strategies. In this work, we take a step back and conduct a systematic study of CRL for large pretrained VLAs across three models and five challenging lifelong RL benchmarks. We find that, contrary to established belief, simple Seq. FT with low-rank adaptation (LoRA) is remarkably strong: it achieves high plasticity, exhibits little to no forgetting, and retains strong zero-shot generalization, frequently outperforming more sophisticated CRL methods. Through detailed analysis, we show that this robustness arises from a synergy between the large pretrained model, parameter-efficient adaptation, and on-policy RL. Together, these components reshape the stability-plasticity trade-off, making continual adaptation both stable and scalable. Our results position Sequential Fine-Tuning as a powerful method for continual RL with VLAs and provide new insights into lifelong learning in the large model era. Code is available at github.com/UT-Austin-RobIn/continual-vla-rl.
- Abstract(参考訳): ビジョンランゲージ・アクション(VLA)モデルのための継続強化学習(CRL)は、オープンで進化する環境に適応可能な自己改善型実施エージェントに向けた有望な方向である。
しかし、従来の連続学習からの知恵は、素早い逐次細調整(Seq. FT)が破滅的な忘れを招き、複雑なCRL戦略を必要とすることを示唆している。
本研究では,3つのモデルと5つの寿命RLベンチマークを用いた大規模事前学習VLAに対するCRLの系統的研究を行う。
我々は、確立された信念とは対照的に、単純なSeqを見いだす。
低ランク適応(LoRA)を持つFTは、高い可塑性を実現し、ほとんど忘れることなく、強いゼロショットの一般化を維持し、しばしばより洗練されたCRL法よりも優れている。
詳細な分析により、このロバスト性は、大きな事前学習モデル、パラメータ効率適応、およびオンラインRLの相乗効果から生じることを示す。
これらのコンポーネントは、安定性と塑性のトレードオフを再形成し、安定かつスケーラブルな継続的適応を実現する。
本研究は,VLAを用いた連続RLのための強力な手法としてシーケンスファインタニングを位置づけ,大規模モデル時代における生涯学習の新たな知見を提供する。
コードはgithub.com/UT-Austin-RobIn/continual-vla-rlで入手できる。
関連論文リスト
- CRL-VLA: Continual Vision-Language-Action Learning [40.18167835795084]
連続強化学習は、生涯にわたるロボットシナリオにVLAモデルをデプロイするための、有望な経路である。
本稿では,厳密な理論的境界を持つVLAモデルの連続的な後学習のためのフレームワークであるCRL-VLAを紹介する。
安定塑性トレードオフと目標条件付き有利度をリンクする統一的な性能境界を,政策のばらつきによって拡張する。
論文 参考訳(メタデータ) (2026-02-03T12:09:53Z) - Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning [49.22815446849924]
大規模言語モデル(LLM)は多段階推論を必要とする問題に悩まされることが多い。
小規模なオープンソースモデルでは、正しいソリューションがほとんどサンプリングされない場合には、RLVR(Reinforcement Learning with Verifiable Rewards)が失敗する。
問題解決を論理的「行動」の系列を生成するものとして再構成するフレームワークとして, SRL(Supervised Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2025-10-29T22:05:08Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Robust Reinforcement Learning as a Stackelberg Game via
Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。
既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。
RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文 参考訳(メタデータ) (2022-02-19T03:44:05Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。