論文の概要: VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.22991v1
- Date: Tue, 24 Mar 2026 09:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.407302
- Title: VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models
- Title(参考訳): VLA-IAP:視覚・言語・アクションモデルのためのインタラクションアライメントによる学習不要な視覚トーケンプルーニング
- Authors: Jintao Cheng, Haozhe Wang, Weibin Li, Gang Wang, Yipu Zhang, Xiaoyu Tang, Jin Wu, Xieyuanli Chen, Yunhui Liu, Wei Zhang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボットが複雑な命令駆動タスクを実行できるように、急速に高度なインボディードインテリジェンスを備えている。
現在のアプローチはしばしば、操作をサポートする視覚的にスパースで構造的に重要な領域を創り出し、初期のタスクフェーズの不安定な振る舞いを引き起こす。
提案手法であるVLA-IAP(Interaction-Aligned Pruning)では,構造的アンカーを保存するための幾何学的事前メカニズムと動的スケジューリング戦略を導入する。
- 参考スコア(独自算出の注目度): 27.12266806191131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have rapidly advanced embodied intelligence, enabling robots to execute complex, instruction-driven tasks. However, as model capacity and visual context length grow, the inference cost of VLA systems becomes a major bottleneck for real-world deployment on resource-constrained platforms. Existing visual token pruning methods mainly rely on semantic saliency or simple temporal cues, overlooking the continuous physical interaction, a fundamental property of VLA tasks. Consequently, current approaches often prune visually sparse yet structurally critical regions that support manipulation, leading to unstable behavior during early task phases. To overcome this, we propose a shift toward an explicit Interaction-First paradigm. Our proposed \textbf{training-free} method, VLA-IAP (Interaction-Aligned Pruning), introduces a geometric prior mechanism to preserve structural anchors and a dynamic scheduling strategy that adapts pruning intensity based on semantic-motion alignment. This enables a conservative-to-aggressive transition, ensuring robustness during early uncertainty and efficiency once interaction is locked. Extensive experiments show that VLA-IAP achieves a \textbf{97.8\% success rate} with a \textbf{$1.25\times$ speedup} on the LIBERO benchmark, and up to \textbf{$1.54\times$ speedup} while maintaining performance \textbf{comparable to the unpruned backbone}. Moreover, the method demonstrates superior and consistent performance across multiple model architectures and three different simulation environments, as well as a real robot platform, validating its strong generalization capability and practical applicability. Our project website is: \href{https://chengjt1999.github.io/VLA-IAP.github.io/}{VLA-IAP.com}.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボットが複雑な命令駆動タスクを実行できるように、急速に高度なインボディードインテリジェンスを備えている。
しかしながら、モデルキャパシティと視覚的コンテキストの長さが大きくなるにつれて、VLAシステムの推論コストは、リソース制約のあるプラットフォーム上での現実的なデプロイにおいて大きなボトルネックとなる。
既存の視覚的トークンプルーニング法は、VLAタスクの基本的な性質である連続的な物理的相互作用を見越して、セマンティック・サリエンシや単純な時間的手がかりに主に依存している。
その結果、現在のアプローチはしばしば、操作をサポートする視覚的にスパースで構造的に重要な領域を創り出し、初期のタスクフェーズの不安定な振る舞いを引き起こす。
これを解決するために、明示的なインタラクションファーストパラダイムへのシフトを提案する。
提案手法であるVLA-IAP(Interaction-Aligned Pruning)は,構造的アンカーを保存するための幾何学的事前メカニズムと,セマンティック・モーションアライメントに基づくプルーニング強度の動的スケジューリング戦略を導入する。
これにより、保守的から攻撃的な移行が可能になり、相互作用がロックされると、早期の不確実性と効率性が保証される。
VLA-IAP は LIBERO ベンチマークで \textbf{$1.25\times$ speedup} を、パフォーマンスを維持しながら \textbf{$1.54\times$ speedup} に到達した。
さらに、本手法は、複数のモデルアーキテクチャと3つの異なるシミュレーション環境、および実際のロボットプラットフォームにまたがる優れた一貫した性能を示し、その強力な一般化能力と実用性を検証する。
プロジェクトウェブサイトは以下のとおりである。
関連論文リスト
- AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models [9.608633915316252]
VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。
現在のパラダイムは、教師付き微調整中の粗大でハイレベルなタスク命令に依存している。
スケーラブルなオフライン後トレーニングパイプラインと統合された,最初のサブタスク対応VLAフレームワークである方法を提案する。
論文 参考訳(メタデータ) (2026-03-09T15:52:48Z) - AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-13T21:31:19Z) - Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement [27.517125673741486]
VLA(Vision-Language-Action)モデルは、汎用的なロボット制御のための有望なパラダイムとして登場した。
マルチレベル静的および動的トークンに視覚入力をアンタングルするフレームワークであるSD-VLAを提案する。
本稿では,VLAの長期時間依存性モデリング機能をより効果的に評価する新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-03T20:17:47Z) - Token Expand-Merge: Training-Free Token Compression for Vision-Language-Action Models [16.321608201919474]
大規模マルチモーダルデータセットで事前訓練されたビジョン・ランゲージ・アクション(VLA)モデルは、ロボットの知覚と制御の強力な基盤として現れている。
タスク性能を維持しながらVLA推論を高速化する訓練不要なトークン圧縮フレームワークであるExpand Token-and-Merge-VLAを提案する。
論文 参考訳(メタデータ) (2025-12-10T18:59:24Z) - FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation [27.007611140797852]
既存の手法では、VLAモデル内の視覚的冗長性を低減し、推論速度を最適化する。
textbfAction-aware textbfDynamic textbfPruning (textbfADP)を提案する。
論文 参考訳(メタデータ) (2025-09-26T09:13:02Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。