論文の概要: VLA Knows Its Limits
- arxiv url: http://arxiv.org/abs/2602.21445v1
- Date: Tue, 24 Feb 2026 23:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.690551
- Title: VLA Knows Its Limits
- Title(参考訳): VLAは限界を知っている
- Authors: Haoxuan Wang, Gengyu Zhang, Yan Yan, Ramana Rao Kompella, Gaowen Liu,
- Abstract要約: 実行地平線の変化は、大幅なパフォーマンスの逸脱につながることを示す。
本稿では,予測された各アクションチャンクの実行地平線を動的に推定する最初のテスト時間手法であるAutoHorizonを提案する。
- 参考スコア(独自算出の注目度): 27.43938890325202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action chunking has recently emerged as a standard practice in flow-based Vision-Language-Action (VLA) models. However, the effect and choice of the execution horizon - the number of actions to be executed from each predicted chunk - remains underexplored. In this work, we first show that varying the execution horizon leads to substantial performance deviations, with performance initially improving and then declining as the horizon increases. To uncover the reasons, we analyze the cross- and self-attention weights in flow-based VLAs and reveal two key phenomena: (i) intra-chunk actions attend invariantly to vision-language tokens, limiting adaptability to environmental changes; and (ii) the initial and terminal action tokens serve as stable anchors, forming latent centers around which intermediate actions are organized. Motivated by these insights, we interpret action self-attention weights as a proxy for the model's predictive limit and propose AutoHorizon, the first test-time method that dynamically estimates the execution horizon for each predicted action chunk to adapt to changing perceptual conditions. Across simulated and real-world robotic manipulation tasks, AutoHorizon is performant, incurs negligible computational overhead, and generalizes across diverse tasks and flow-based models.
- Abstract(参考訳): アクションチャンキングは、フローベースのVision-Language-Action(VLA)モデルにおける標準プラクティスとして最近登場した。
しかし、実行の地平線(予測されたチャンクから実行するアクションの数)の効果と選択は、まだ未定のままである。
本研究では,まず,実行地平線の変化によって性能が著しく変化し,当初は性能が向上し,地平線が大きくなるにつれて低下することを示す。
その理由を明らかにするため,フローベースVLAにおけるクロス・アテンション・ウェイトと自己アテンション・ウェイトを分析し,2つの重要な現象を明らかにする。
i) チャンク内行動は、環境変化への適応性を制限し、視覚言語トークンに不変に出席する。
2) 初期および終端のアクショントークンは安定なアンカーとして機能し、中間アクションが組織される周辺に潜伏中心を形成する。
これらの知見に触発されて、モデルの予測限界のプロキシとしてアクション自己注意重みを解釈し、予測された各アクションチャンクの実行地平線を動的に推定して知覚条件の変化に適応する最初のテスト時間手法であるAutoHorizonを提案する。
シミュレーションされた実世界のロボット操作タスク全体にわたって、AutoHorizonはパフォーマンスが高く、無視できる計算オーバーヘッドを発生させ、さまざまなタスクやフローベースのモデルにまたがって一般化する。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models [21.133970394496327]
VLA(Vision-Language-Action)モデルが汎用ロボット制御の有望なパラダイムとして登場した。
現在のテストタイムスケーリング(TTS)メソッドでは、追加のトレーニング、検証、複数フォワードパスが必要になるため、デプロイには実用的ではない。
我々は,「自己不確実性」に基づく視覚的知覚と行動を協調的に調節するシンプルな推論戦略を提案する。
論文 参考訳(メタデータ) (2026-02-04T04:48:16Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。