Fugu-MT 論文翻訳(概要): VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference

論文の概要: VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference

arxiv url: http://arxiv.org/abs/2511.16449v2
Date: Fri, 21 Nov 2025 11:57:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-24 14:08:26.122197
Title: VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference
Title（参考訳）: VLA-Pruner:高能率ビジョン・ランゲージ・アクション推論のためのテンポラル・アウェアデュアルレベル・ビジュアル・トークン・プルーニング
Authors: Ziyan Liu, Yeqiu Chen, Hongyi Cai, Tao Lin, Shuo Yang, Zheng Liu, Bo Zhao,
Abstract要約: VLA(Vision-Language-Action)モデルでは、AIの具現化に大きな期待が寄せられているが、計算コストによってリアルタイムのデプロイメントが制限されている。本稿では,VLAモデルのデュアルシステム特性に適合する汎用的なプラグ・アンド・プレイ型VLA固有のトークンプルー法であるVLA-Prunerを提案する。 VLA-Prunerは、複数のVLAアーキテクチャと多様なロボットタスクにわたる最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 17.901428758295307
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models have shown great promise for embodied AI, yet the heavy computational cost of processing continuous visual streams severely limits their real-time deployment. Token pruning (keeping salient visual tokens and dropping redundant ones) has emerged as an effective approach for accelerating Vision-Language Models (VLMs), offering a solution for efficient VLA. However, these VLM-specific token pruning methods select tokens based solely on semantic salience metrics (e.g., prefill attention), while overlooking the VLA's intrinsic dual-system nature of high-level semantic understanding and low-level action execution. Consequently, these methods bias token retention toward semantic cues, discard critical information for action generation, and significantly degrade VLA performance. To bridge this gap, we propose VLA-Pruner, a versatile plug-and-play VLA-specific token prune method that aligns with the dual-system nature of VLA models and exploits the temporal continuity in robot manipulation. Specifically, VLA-Pruner adopts a dual-level importance criterion for visual token retention: vision-language prefill attention for semantic-level relevance and action decode attention, estimated via temporal smoothing, for action-level importance. Based on this criterion, VLA-Pruner proposes a novel dual-level token selection strategy that adaptively preserves a compact, informative set of visual tokens for both semantic understanding and action execution under given compute budget. Experiments show that VLA-Pruner achieves state-of-the-art performance across multiple VLA architectures and diverse robotic tasks.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、AIを具現化するための大きな約束を示しているが、連続的なビジュアルストリームを処理するための計算コストは、リアルタイムデプロイメントを著しく制限している。視覚・言語モデル(VLM)を高速化するための効果的なアプローチとして、トケンプルーニング(健全な視覚トークンの保持と冗長なトークンのドロップ)が登場し、効率的なVLAのソリューションを提供している。しかしながら、これらのVLM固有のトークンプルーニング手法は、セマンティックサリエンスメトリクス(例えば、事前注意)のみに基づくトークンを選択し、高レベルのセマンティック理解と低レベルのアクション実行という、VLAの本質的なデュアルシステムの性質を見越す。その結果、これらの手法は意味的手がかりに対するトークン保持をバイアスし、行動生成のための重要な情報を破棄し、VLA性能を著しく低下させる。このギャップを埋めるために,VLAモデルの二重系の性質に整合し,ロボット操作における時間的連続性を利用する,汎用的なプラグアンドプレイVLA固有のトークンプルー法であるVLA-Prunerを提案する。特に、VLA-Prunerは、視覚的トークン保持のための二重レベル重要な基準、つまり、視覚言語による意味レベルの関連性に対する注意と、時間的平滑化によって推定されるアクションデコード注意を、アクションレベルの重要度のために採用している。この基準に基づいて、VLA-Prunerは、与えられた計算予算の下での意味的理解と行動実行の両方のために、コンパクトで情報的な視覚トークンの集合を適応的に保存する、新しいデュアルレベルトークン選択戦略を提案する。実験によると、VLA-Prunerは複数のVLAアーキテクチャと多様なロボットタスクで最先端のパフォーマンスを達成する。

関連論文リスト

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model [44.72361174037017]
VLA(Vision-Language-Action)モデルは、VLM(Large Vision Language Models)を利用して、命令と視覚入力を共同で解釈することで、大きなブレークスルーを達成した。視覚トークンの大幅な増加、特にマルチビュー入力は、リアルタイムロボット操作に深刻な課題をもたらす。 VLAモデルに特化して設計された動的トークンプルーニングフレームワークであるBFA++を提案する。
論文参考訳（メタデータ） (2026-02-24T05:31:52Z)
ActionCodec: What Makes for Good Action Tokenizers [106.78093973045526]
VLA(Vision-Language-Action)モデルでは、より優れた命令追従と訓練効率が示されている。このパラダイムの中心はアクショントークン化であるが、その設計は主に再構築の忠実さに焦点を当てている。我々は、トレーニング効率とVLA性能の両方を大幅に向上させる高性能なアクショントークンであるtextbfActionCodecを紹介する。
論文参考訳（メタデータ） (2026-02-17T07:07:15Z)
Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement [27.517125673741486]
VLA(Vision-Language-Action)モデルは、汎用的なロボット制御のための有望なパラダイムとして登場した。マルチレベル静的および動的トークンに視覚入力をアンタングルするフレームワークであるSD-VLAを提案する。本稿では,VLAの長期時間依存性モデリング機能をより効果的に評価する新しいベンチマークを提案する。
論文参考訳（メタデータ） (2026-02-03T20:17:47Z)
ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context [54.58057019521198]
時間的コンテキストを活用することは、部分的に観察可能なロボットタスクの成功に不可欠である。動作のクローン化に関する以前の研究は、複数フレームの観測で不整合のパフォーマンス向上を示した。マルチフレーム観測を効果的に活用することにより、ロボットタスクのパフォーマンスを堅牢に向上するポリシーモデルであるContextVLAを紹介する。
論文参考訳（メタデータ） (2025-10-05T15:29:57Z)
dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文参考訳（メタデータ） (2025-09-30T02:36:11Z)
CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification [48.81250395291505]
最近のVision-Language-Actionモデルは、広範な後トレーニングを必要とし、高い計算オーバーヘッドをもたらす。命令駆動型ルーティングとスパーシフィケーションを利用して効率と性能を両立させるフレームワークであるCogVLAを提案する。 CogVLAは、それぞれ97.4%と70.0%の成功率で最先端のパフォーマンスを達成し、トレーニングコストを2.5倍に、推論遅延を2.8倍に削減した。
論文参考訳（メタデータ） (2025-08-28T17:50:58Z)
SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文参考訳（メタデータ） (2025-06-15T05:04:17Z)
Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。 VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文参考訳（メタデータ） (2025-05-27T13:47:18Z)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。