論文の概要: Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
- arxiv url: http://arxiv.org/abs/2512.02834v1
- Date: Tue, 02 Dec 2025 14:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.931464
- Title: Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
- Title(参考訳): アンチサーベイレーションとしてのステアリング・ビジョン・ランゲージ・アクションモデル:テスト時間スケーリングアプローチ
- Authors: Siyuan Yang, Yang Zhang, Haoran He, Ling Pan, Xiu Li, Chenjia Bai, Xuelong Li,
- Abstract要約: 動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
- 参考スコア(独自算出の注目度): 78.4812458793128
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language-Action (VLA) models, trained via flow-matching or diffusion objectives, excel at learning complex behaviors from large-scale, multi-modal datasets (e.g., human teleoperation, scripted policies). However, since VLAs incorporate diverse data modes in the pre-training stage, and the finetuning dataset often contains demonstration data collected in a kinematically suboptimal or undesirable way, it exists redundant action modes that are irrelevant to the success action modes of the downstream task. Specifically, we observe a critical inference-time fragility among various sampled noises after supervised finetuning of pre-trained VLAs. In this paper, we attribute this instability to the distribution shift between the VLA policy and the policy induced by stable success modes of the downstream task dataset. Thus, we propose \textbf{TACO}, a test-time-scaling (TTS) framework that applies a lightweight pseudo-count estimator as a high-fidelity verifier of action chunks. The VLA models integrated with TACO can execute the actions with maximum pseudo-count from all sampled action chunks, thereby preventing distribution shifts while preserving the generalization ability of VLAs since the constraint is applied only during inference. Our method resembles the classical anti-exploration principle in offline reinforcement learning (RL), and being gradient-free, it incurs significant computational benefits compared to RL update, especially for flow or diffusion-based VLAs which are difficult to perform RL update due to denoising process. Extensive experiments across four simulation benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) and a dual-arm platform demonstrate that our method significantly improves the inference stability and success rates in downstream-task adaptations.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、フローマッチングや拡散目標を通じてトレーニングされた、大規模なマルチモーダルデータセット(例えば、人間の遠隔操作、スクリプトポリシ)からの複雑な振る舞いの学習に長けている。
しかし、VLAは事前訓練段階に多様なデータモードを組み込んでおり、微調整データセットはキネマティックに最適あるいは望ましくない方法で収集されたデモデータを含むことが多いため、下流タスクの成功動作モードとは無関係な冗長なアクションモードが存在する。
具体的には,事前学習したVLAの微調整を監督した後に,様々なサンプル雑音の臨界時間変動を観察する。
本稿では、この不安定性は、VLAポリシーと下流タスクデータセットの安定的な成功モードによって引き起こされるポリシーとの分配シフトに起因している。
そこで,テスト時間スケーリング(TTS)フレームワークである‘textbf{TACO} を提案する。
TACOと統合されたVLAモデルは、すべてのサンプリングされたアクションチャンクから最大擬似カウントでアクションを実行することができるため、制約が推論時にのみ適用されるため、VLAの一般化能力を保ちながら、分散シフトを防止できる。
本手法は, オフライン強化学習(RL)における古典的反探索原理に類似しており, 勾配のないため, RL更新と比較して計算上の利点が顕著である。
シミュレーションベンチマーク (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) とデュアルアームプラットフォームによる大規模な実験により, 下流タスク適応における推論安定性と成功率を大幅に向上することを示した。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Self-Improving Vision-Language-Action Models with Data Generation via Residual RL [29.682761652941963]
Probe, Learn, Distill (PLD)は3段階のプラグイン・アンド・プレイフレームワークで、視覚言語アクションモデルを改善する。
PLDはLIBEROでほぼ飽和した99%のタスク成功、SimplerEnvで50%以上、実世界のFrankaとYAMのアーム操作タスクで100%成功している。
論文 参考訳(メタデータ) (2025-10-30T06:24:04Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - Taming Flow Matching with Unbalanced Optimal Transport into Fast Pansharpening [10.23957420290553]
本稿では,一段階の高品位パンシャーピングを実現するための最適輸送フローマッチングフレームワークを提案する。
OTFMフレームワークは、パンシャーピング制約の厳格な遵守を維持しつつ、シミュレーション不要なトレーニングとシングルステップ推論を可能にする。
論文 参考訳(メタデータ) (2025-03-19T08:10:49Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。