論文の概要: VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference
- arxiv url: http://arxiv.org/abs/2511.16449v2
- Date: Fri, 21 Nov 2025 11:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 14:08:26.122197
- Title: VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference
- Title(参考訳): VLA-Pruner:高能率ビジョン・ランゲージ・アクション推論のためのテンポラル・アウェアデュアルレベル・ビジュアル・トークン・プルーニング
- Authors: Ziyan Liu, Yeqiu Chen, Hongyi Cai, Tao Lin, Shuo Yang, Zheng Liu, Bo Zhao,
- Abstract要約: VLA(Vision-Language-Action)モデルでは、AIの具現化に大きな期待が寄せられているが、計算コストによってリアルタイムのデプロイメントが制限されている。
本稿では,VLAモデルのデュアルシステム特性に適合する汎用的なプラグ・アンド・プレイ型VLA固有のトークンプルー法であるVLA-Prunerを提案する。
VLA-Prunerは、複数のVLAアーキテクチャと多様なロボットタスクにわたる最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 17.901428758295307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have shown great promise for embodied AI, yet the heavy computational cost of processing continuous visual streams severely limits their real-time deployment. Token pruning (keeping salient visual tokens and dropping redundant ones) has emerged as an effective approach for accelerating Vision-Language Models (VLMs), offering a solution for efficient VLA. However, these VLM-specific token pruning methods select tokens based solely on semantic salience metrics (e.g., prefill attention), while overlooking the VLA's intrinsic dual-system nature of high-level semantic understanding and low-level action execution. Consequently, these methods bias token retention toward semantic cues, discard critical information for action generation, and significantly degrade VLA performance. To bridge this gap, we propose VLA-Pruner, a versatile plug-and-play VLA-specific token prune method that aligns with the dual-system nature of VLA models and exploits the temporal continuity in robot manipulation. Specifically, VLA-Pruner adopts a dual-level importance criterion for visual token retention: vision-language prefill attention for semantic-level relevance and action decode attention, estimated via temporal smoothing, for action-level importance. Based on this criterion, VLA-Pruner proposes a novel dual-level token selection strategy that adaptively preserves a compact, informative set of visual tokens for both semantic understanding and action execution under given compute budget. Experiments show that VLA-Pruner achieves state-of-the-art performance across multiple VLA architectures and diverse robotic tasks.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、AIを具現化するための大きな約束を示しているが、連続的なビジュアルストリームを処理するための計算コストは、リアルタイムデプロイメントを著しく制限している。
視覚・言語モデル(VLM)を高速化するための効果的なアプローチとして、トケンプルーニング(健全な視覚トークンの保持と冗長なトークンのドロップ)が登場し、効率的なVLAのソリューションを提供している。
しかしながら、これらのVLM固有のトークンプルーニング手法は、セマンティックサリエンスメトリクス(例えば、事前注意)のみに基づくトークンを選択し、高レベルのセマンティック理解と低レベルのアクション実行という、VLAの本質的なデュアルシステムの性質を見越す。
その結果、これらの手法は意味的手がかりに対するトークン保持をバイアスし、行動生成のための重要な情報を破棄し、VLA性能を著しく低下させる。
このギャップを埋めるために,VLAモデルの二重系の性質に整合し,ロボット操作における時間的連続性を利用する,汎用的なプラグアンドプレイVLA固有のトークンプルー法であるVLA-Prunerを提案する。
特に、VLA-Prunerは、視覚的トークン保持のための二重レベル重要な基準、つまり、視覚言語による意味レベルの関連性に対する注意と、時間的平滑化によって推定されるアクションデコード注意を、アクションレベルの重要度のために採用している。
この基準に基づいて、VLA-Prunerは、与えられた計算予算の下での意味的理解と行動実行の両方のために、コンパクトで情報的な視覚トークンの集合を適応的に保存する、新しいデュアルレベルトークン選択戦略を提案する。
実験によると、VLA-Prunerは複数のVLAアーキテクチャと多様なロボットタスクで最先端のパフォーマンスを達成する。
関連論文リスト
- CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification [48.81250395291505]
最近のVision-Language-Actionモデルは、広範な後トレーニングを必要とし、高い計算オーバーヘッドをもたらす。
命令駆動型ルーティングとスパーシフィケーションを利用して効率と性能を両立させるフレームワークであるCogVLAを提案する。
CogVLAは、それぞれ97.4%と70.0%の成功率で最先端のパフォーマンスを達成し、トレーニングコストを2.5倍に、推論遅延を2.8倍に削減した。
論文 参考訳(メタデータ) (2025-08-28T17:50:58Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。