論文の概要: VLS: Steering Pretrained Robot Policies via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.03973v1
- Date: Tue, 03 Feb 2026 19:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.254014
- Title: VLS: Steering Pretrained Robot Policies via Vision-Language Models
- Title(参考訳): VLS:ビジョンランゲージモデルによる事前訓練型ロボット政策
- Authors: Shuo Liu, Ishneet Sukhvinder Singh, Yiqing Xu, Jiafei Duan, Ranjay Krishna,
- Abstract要約: Vision-Language Steering (VLS)は、凍結生成ロボットポリシーの推論時間適応のためのトレーニング不要フレームワークである。
VLSは、適応を推論時間制御問題として扱い、事前訓練された拡散またはフローマッチングポリシーのサンプリングプロセスを操る。
- 参考スコア(独自算出の注目度): 31.189909515514668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Why do pretrained diffusion or flow-matching policies fail when the same task is performed near an obstacle, on a shifted support surface, or amid mild clutter? Such failures rarely reflect missing motor skills; instead, they expose a limitation of imitation learning under train-test shifts, where action generation is tightly coupled to training-specific spatial configurations and task specifications. Retraining or fine-tuning to address these failures is costly and conceptually misaligned, as the required behaviors already exist but cannot be selectively adapted at test time. We propose Vision-Language Steering (VLS), a training-free framework for inference-time adaptation of frozen generative robot policies. VLS treats adaptation as an inference-time control problem, steering the sampling process of a pretrained diffusion or flow-matching policy in response to out-of-distribution observation-language inputs without modifying policy parameters. By leveraging vision-language models to synthesize trajectory-differentiable reward functions, VLS guides denoising toward action trajectories that satisfy test-time spatial and task requirements. Across simulation and real-world evaluations, VLS consistently outperforms prior steering methods, achieving a 31% improvement on CALVIN and a 13% gain on LIBERO-PRO. Real-world deployment on a Franka robot further demonstrates robust inference-time adaptation under test-time spatial and semantic shifts. Project page: https://vision-language-steering.github.io/webpage/
- Abstract(参考訳): 同じタスクが障害物の近くで実行されたり、移動した支持面で実行されたり、あるいは緩やかな乱れの中であれば、なぜ事前訓練された拡散あるいはフローマッチングポリシーは失敗するのだろうか?
このような失敗は、モータースキルの欠如を反映することは滅多になく、代わりに、訓練固有の空間構成やタスク仕様と密接に結びついている列車-テストシフト下での模倣学習の制限を露呈する。
これらの障害に対処するためのリトレーニングや微調整は、必要となる振る舞いがすでに存在するが、テスト時に選択的に適応できないため、コストと概念的に不一致である。
本稿では,凍結生成ロボットポリシーの推論時間適応のためのトレーニング不要フレームワークであるビジョンランゲージステアリング(VLS)を提案する。
VLSは適応を推論時間制御問題として扱い、事前訓練された拡散またはフローマッチングポリシーのサンプリングプロセスを、ポリシーパラメータを変更することなく、分布外観察言語入力に応答させる。
視覚言語モデルを活用して、軌道微分可能な報酬関数を合成することにより、VLSガイドは、テスト時間空間およびタスク要求を満たす行動軌跡に向かって記述する。
シミュレーションや実世界の評価を通じて、VLSは従来よりも常に優れており、CALVINは31%、LIBERO-PROは13%向上している。
実世界におけるFrankaロボットの展開は、テスト時間空間およびセマンティックシフト下での堅牢な推論時間適応をさらに実証する。
プロジェクトページ:https://vision-lang-steering.github.io/webpage/
関連論文リスト
- SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models [21.133970394496327]
VLA(Vision-Language-Action)モデルが汎用ロボット制御の有望なパラダイムとして登場した。
現在のテストタイムスケーリング(TTS)メソッドでは、追加のトレーニング、検証、複数フォワードパスが必要になるため、デプロイには実用的ではない。
我々は,「自己不確実性」に基づく視覚的知覚と行動を協調的に調節するシンプルな推論戦略を提案する。
論文 参考訳(メタデータ) (2026-02-04T04:48:16Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation [30.207690822989292]
自己修正(SC-)VLAフレームワークは、アクションを直接予測する高速システムと、失敗したアクションを反映する遅いシステムを統合する。
高速システムでは,パラメータ効率のよい微調整を取り入れて,モデルにポーズ予測機能を持たせる。
動作が遅いシステムでは,動作不良後の人間の反射を模倣するように設計された,故障訂正のためのチェーン・オブ・ソート・トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:58:48Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。