論文の概要: On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.06748v2
- Date: Tue, 13 Jan 2026 03:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.728477
- Title: On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning
- Title(参考訳): 実時間強化学習によるオンザフライVLA適応
- Authors: Changyu Liu, Yiyang Liu, Taowen Wang, Qiao Zhuang, James Chenhao Liang, Wenhao Yang, Renjing Xu, Qifan Wang, Dongfang Liu, Cheng Han,
- Abstract要約: ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
- 参考スコア(独自算出の注目度): 61.38273866396522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action models have recently emerged as a powerful paradigm for general-purpose robot learning, enabling agents to map visual observations and natural-language instructions into executable robotic actions. Though popular, they are primarily trained via supervised fine-tuning or training-time reinforcement learning, requiring explicit fine-tuning phases, human interventions, or controlled data collection. Consequently, existing methods remain unsuitable for challenging simulated- or physical-world deployments, where robots must respond autonomously and flexibly to evolving environments. To address this limitation, we introduce a Test-Time Reinforcement Learning for VLAs (TT-VLA), a framework that enables on-the-fly policy adaptation during inference. TT-VLA formulates a dense reward mechanism that leverages step-by-step task-progress signals to refine action policies during test time while preserving the SFT/RL-trained priors, making it an effective supplement to current VLA models. Empirical results show that our approach enhances overall adaptability, stability, and task success in dynamic, previously unseen scenarios under simulated and real-world settings. We believe TT-VLA offers a principled step toward self-improving, deployment-ready VLAs.
- Abstract(参考訳): Vision-Language-Actionモデルは最近、汎用ロボット学習の強力なパラダイムとして登場し、エージェントは視覚的な観察と自然言語の指示を実行可能なロボットアクションにマッピングできる。
人気はあるが、主に教師付き微調整または訓練時の強化学習を通じて訓練され、明示的な微調整フェーズ、人間の介入、制御されたデータ収集を必要とする。
その結果、既存の手法は、ロボットが自律的かつ柔軟に進化する環境に応答しなければならない、シミュレートされた世界や物理世界の展開に挑戦するのに相応しいままである。
この制限に対処するため,VLA (Test-Time Reinforcement Learning for VLAs, TT-VLA) を導入する。
TT-VLAは、ステップ・バイ・ステップのタスク・プログレス信号を利用して、SFT/RL訓練前の動作ポリシーを保存しながら、テスト時のアクションポリシーを洗練し、現在のVLAモデルに効果的な補完を与える、密度の高い報酬メカニズムを定式化している。
実験結果から,本手法は,シミュレーションおよび実世界の環境下での動的かつ未確認なシナリオにおいて,全体的な適応性,安定性,タスク成功を向上することが示された。
TT-VLAは、自己改善的でデプロイメント対応のVLAに向けた、原則的な一歩だと思います。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models [21.133970394496327]
VLA(Vision-Language-Action)モデルが汎用ロボット制御の有望なパラダイムとして登場した。
現在のテストタイムスケーリング(TTS)メソッドでは、追加のトレーニング、検証、複数フォワードパスが必要になるため、デプロイには実用的ではない。
我々は,「自己不確実性」に基づく視覚的知覚と行動を協調的に調節するシンプルな推論戦略を提案する。
論文 参考訳(メタデータ) (2026-02-04T04:48:16Z) - VLS: Steering Pretrained Robot Policies via Vision-Language Models [31.189909515514668]
Vision-Language Steering (VLS)は、凍結生成ロボットポリシーの推論時間適応のためのトレーニング不要フレームワークである。
VLSは、適応を推論時間制御問題として扱い、事前訓練された拡散またはフローマッチングポリシーのサンプリングプロセスを操る。
論文 参考訳(メタデータ) (2026-02-03T19:50:16Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - RobustVLA: Robustness-Aware Reinforcement Post-Training for Vision-Language-Action Models [33.503927352666096]
Vision-Language-Action (VLA)モデルは、配布外デプロイメントにおいて確実に一般化できない。
本稿では,VLAモデルのレジリエンスを明示的に向上するための軽量オンラインRLポストトレーニング手法であるRobustVLAを紹介する。
本研究は,VLAモデルの信頼性向上とロバスト性向上に向けた重要なステップとして,ロバストネスを意識したRLポストトレーニングの重要性を強調した。
論文 参考訳(メタデータ) (2025-11-03T08:30:48Z) - Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。