論文の概要: Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models
- arxiv url: http://arxiv.org/abs/2605.11459v1
- Date: Tue, 12 May 2026 03:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.543617
- Title: Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models
- Title(参考訳): ダイナミックブラインドネスの克服--VLAモデルの無練習ペース・アンド・パス補正-
- Authors: Yanyan Zhang, Chaoda Song, Vikash Singh, Xinpeng Li, Kai Ye, Zhe Hu, Zhongzhu Pu, Yu Yin, Vipin Chaudhary,
- Abstract要約: 既存のアプローチでは、高価な再トレーニングが必要か、レイテンシのボトルネックとアクションチャンク間の時間的一貫性の低下に悩まされる。
チャンクされた動作VLAをラップするトレーニングフリーでクローズド形式の推論時間演算子であるPace-and-Path Correctionを提案する。
動作を唯一の制御変数として分離する目的で設計された総合的な診断ベンチマークMoveBenchについて,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 13.008047379870069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models achieve remarkable flexibility and generalization beyond classical control paradigms. However, most prevailing VLAs are trained under a single-frame observation paradigm, which leaves them structurally blind to temporal dynamics. Consequently, these models degrade severely in non-stationary scenarios, even when trained or finetuned on dynamic datasets. Existing approaches either require expensive retraining or suffer from latency bottlenecks and poor temporal consistency across action chunks. We propose Pace-and-Path Correction, a training-free, closed-form inference-time operator that wraps any chunked-action VLA. From a single quadratic cost, joint minimization yields a unified solution that decomposes orthogonally into two distinct channels. The pace channel compresses execution along the planned direction, while the path channel applies an orthogonal spatial offset, jointly absorbing the perceived dynamics within the chunk window. We evaluate our approach on a comprehensive diagnostic benchmark MoveBench designed to isolate motion as the sole controlled variable. Empirical results demonstrate that our framework consistently outperforms state-of-the-art training-free wrappers and dynamic-adaptive methods and improves success rates by up to 28.8% and 25.9% in absolute terms over foundational VLA models in dynamic-only and static-dynamic mixed environments, respectively.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、古典的な制御パラダイムを超えた優れた柔軟性と一般化を実現する。
しかしながら、最も普及しているVLAは単一フレームの観察パラダイムの下で訓練されており、構造的に視覚的に時間的ダイナミクスに委ねられている。
その結果、これらのモデルは動的データセットをトレーニングしたり微調整したりしても、非定常シナリオでは著しく劣化する。
既存のアプローチでは、高価な再トレーニングが必要か、レイテンシのボトルネックとアクションチャンク間の時間的一貫性の低下に悩まされる。
チャンクされた動作VLAをラップするトレーニングフリーでクローズド形式の推論時間演算子であるPace-and-Path Correctionを提案する。
1つの二次コストから、結合の最小化は、直交的に2つの異なるチャネルに分解する統一解をもたらす。
ペースチャネルは計画された方向に沿って実行を圧縮し、パスチャネルは直交空間オフセットを適用し、チャンクウィンドウ内の知覚力学を共同吸収する。
動作を唯一の制御変数として分離する目的で設計された総合的な診断ベンチマークMoveBenchについて,本手法の評価を行った。
実験の結果,我々のフレームワークは,動的にのみ,静的な混合環境において,基礎的なVLAモデルよりも最大28.8%,25.9%の成功率の向上を実現し,最先端のトレーニングフリーラッパーと動的適応手法を一貫して上回っていることがわかった。
関連論文リスト
- A Flow Matching Framework for Soft-Robot Inverse Dynamics [13.045225329973617]
オープンループフィードフォワード制御のための逆力学フレームワークは、生成トランスポートマップとしてシステムの微分力学を学習する。
作業は、ソフトロボットシステムにおいて、微分逆ダイナミクスを学習するための堅牢で高性能なパラダイムとしてフローマッチングを実証する。
論文 参考訳(メタデータ) (2026-04-03T12:45:46Z) - Enabling Dynamic Tracking in Vision-Language-Action Models via Time-Discrete and Time-Continuous Velocity Feedforward [11.066720921275648]
視覚言語アクション(VLA)モデルは、ロボット操作に非常に有望である。
厳格な産業用ロボットへの展開は、コンプライアンスと応答性の本質的にのトレードオフのため、依然として困難である。
本稿では、このトレードオフを解決するために、速度フィードフォワード項をVLAポリシーに統合することの重要性を示す。
論文 参考訳(メタデータ) (2026-03-17T07:50:00Z) - Active Flow Matching [14.437387789022354]
アクティブフローマッチング(AFM)は、フローに沿った条件付きエンドポイント分布を操作するための変動目的を再構成する。
我々は、自己正規化重要度サンプリングを用いて、前方および逆のKullback-Leibler(KL)変異を導出する。
論文 参考訳(メタデータ) (2026-03-01T02:50:07Z) - Unifying Model-Free Efficiency and Model-Based Representations via Latent Dynamics [6.208369829942616]
我々は,新しい強化学習アルゴリズムであるUnified Latent Dynamics (ULD)を提案する。
ULDはモデルベースアプローチの表現力でモデルフリー手法の効率を統一する。
Gymロコモーション、DeepMind Control(プロセプティブおよびビジュアル)、Atariにまたがる80環境での評価を行った。
論文 参考訳(メタデータ) (2026-02-13T06:06:56Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。