論文の概要: VLA-OPD: Bridging Offline SFT and Online RL for Vision-Language-Action Models via On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2603.26666v1
- Date: Fri, 27 Mar 2026 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.63887
- Title: VLA-OPD: Bridging Offline SFT and Online RL for Vision-Language-Action Models via On-Policy Distillation
- Title(参考訳): VLA-OPD:オン・ポリシィ蒸留によるビジョン・ランゲージ・アクションモデルのためのオフラインSFTとオンラインRLのブリッジング
- Authors: Zhide Zhong, Haodong Yan, Junfeng Li, Junjie He, Tianran Zhang, Haoang Li,
- Abstract要約: On-Policy VLA Distillation (VLA-OPD)は、オンライン強化学習(RL)の効率をオフライン監視ファインチューニング(SFT)の堅牢性でブリッジするフレームワークである。
- 参考スコア(独自算出の注目度): 14.33516456804297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although pre-trained Vision-Language-Action (VLA) models exhibit impressive generalization in robotic manipulation, post-training remains crucial to ensure reliable performance during deployment. However, standard offline Supervised Fine-Tuning (SFT) suffers from distribution shifts and catastrophic forgetting of pre-trained capabilities, while online Reinforcement Learning (RL) struggles with sparse rewards and poor sample efficiency. In this paper, we propose On-Policy VLA Distillation (VLA-OPD), a framework bridging the efficiency of SFT with the robustness of RL. Instead of relying on sparse environmental rewards, VLA-OPD leverages an expert teacher to provide dense, token-level supervision on the student's self-generated trajectories. This enables active error correction on policy-induced states while preserving pre-trained general capabilities through gentle alignment. Crucially, we formulate VLA-OPD via a Reverse-KL objective. Unlike standard Forward-KL that induces mode-covering entropy explosion, or Hard-CE that causes premature entropy collapse, our bounded mode-seeking objective ensures stable policy learning by filtering out the teacher's epistemic uncertainty while maintaining action diversity. Experiments on LIBERO and RoboTwin2.0 benchmarks demonstrate that VLA-OPD significantly improves sample efficiency over RL and robustness over SFT, while effectively mitigating catastrophic forgetting during post-training.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作において顕著な一般化を示すが、後トレーニングは、デプロイメント中に信頼性の高いパフォーマンスを保証するために不可欠である。
しかし、通常のオフラインのSupervised Fine-Tuning (SFT) は、分散シフトと事前学習能力の破滅的な忘れ込みに悩まされ、オンライン強化学習 (RL) はスパース報酬とサンプル効率の低下に悩まされている。
本稿では, SFT の効率を RL の堅牢性でブリッジするフレームワークである On-Policy VLA Distillation (VLA-OPD) を提案する。
希少な環境報酬に頼る代わりに、VLA-OPDは専門家の教師を活用して、学生の自己生成軌道に対する密集したトークンレベルの監督を提供する。
これにより、緩和アライメントを通じて事前訓練された一般能力を保ちながら、ポリシーによって引き起こされた状態のアクティブなエラー修正が可能になる。
重要なことは、VLA-OPDをReverse-KLの目的によって定式化する。
モード被覆エントロピーの爆発を引き起こす標準のフォワード-KLや、未熟エントロピーの崩壊を引き起こすハード-CEとは異なり、我々の境界モード探索の目的は、行動多様性を維持しながら教師の疫学的不確実性をフィルタリングすることで安定した政策学習を保証する。
LIBEROとRoboTwin2.0ベンチマークの実験では、VLA-OPDはRL以上のサンプル効率とSFT上のロバスト性を大幅に向上する一方で、後トレーニング時の破滅的な忘れを効果的に軽減することを示した。
関連論文リスト
- Learning from Mistakes: Post-Training for Driving VLA with Takeover Data [22.44026866655379]
TakeVLAは、2つの補完的なイノベーションを通じて欠点を克服する新しいVLAポストトレーニングフレームワークである。
まず,VLAが積極的に誤りから学ぶことができるような,占領前言語指導を導入する。
第2に,再建された乗っ取りシナリオで動作する強化微調整パラダイムであるScenario Dreamingを提案する。
論文 参考訳(メタデータ) (2026-03-16T08:33:48Z) - Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures [14.313346858887286]
自律走行のためのVLA(Vision-Language-Action)モデルは、強化学習(Reinforcement Learning、RL)最適化時にしばしばパフォーマンス高原に到達する。
この停滞は、以前のスーパービジョン・ファインチューニング(SFT)によって制約された探査能力から生じる。
構造化された診断フィードバックでRLを増強するフレームワークであるELF-VLA(Explicit Learning from Failures)を提案する。
論文 参考訳(メタデータ) (2026-03-01T11:41:22Z) - CRL-VLA: Continual Vision-Language-Action Learning [40.18167835795084]
連続強化学習は、生涯にわたるロボットシナリオにVLAモデルをデプロイするための、有望な経路である。
本稿では,厳密な理論的境界を持つVLAモデルの連続的な後学習のためのフレームワークであるCRL-VLAを紹介する。
安定塑性トレードオフと目標条件付き有利度をリンクする統一的な性能境界を,政策のばらつきによって拡張する。
論文 参考訳(メタデータ) (2026-02-03T12:09:53Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - COVLM-RL: Critical Object-Oriented Reasoning for Autonomous Driving Using VLM-Guided Reinforcement Learning [55.83415345423854]
批判的オブジェクト指向(CO)推論と強化学習(RL)を統合した新しいエンドツーエンド駆動フレームワークCOVLM-RLを提案する。
CARLAシミュレータで行った実験により、COVLM-RLはトレーニング運転環境における成功率を30%向上することが示された。
論文 参考訳(メタデータ) (2025-12-10T06:18:16Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - RobustVLA: Robustness-Aware Reinforcement Post-Training for Vision-Language-Action Models [33.503927352666096]
Vision-Language-Action (VLA)モデルは、配布外デプロイメントにおいて確実に一般化できない。
本稿では,VLAモデルのレジリエンスを明示的に向上するための軽量オンラインRLポストトレーニング手法であるRobustVLAを紹介する。
本研究は,VLAモデルの信頼性向上とロバスト性向上に向けた重要なステップとして,ロバストネスを意識したRLポストトレーニングの重要性を強調した。
論文 参考訳(メタデータ) (2025-11-03T08:30:48Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。