論文の概要: Token Expand-Merge: Training-Free Token Compression for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2512.09927v1
- Date: Wed, 10 Dec 2025 18:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.267196
- Title: Token Expand-Merge: Training-Free Token Compression for Vision-Language-Action Models
- Title(参考訳): Token Expand-Merge:Vision-Language-Action Modelのためのトレーニング不要のToken Compression
- Authors: Yifan Ye, Jiaqi Ma, Jun Cen, Zhihe Lu,
- Abstract要約: 大規模マルチモーダルデータセットで事前訓練されたビジョン・ランゲージ・アクション(VLA)モデルは、ロボットの知覚と制御の強力な基盤として現れている。
タスク性能を維持しながらVLA推論を高速化する訓練不要なトークン圧縮フレームワークであるExpand Token-and-Merge-VLAを提案する。
- 参考スコア(独自算出の注目度): 16.321608201919474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models pretrained on large-scale multimodal datasets have emerged as powerful foundations for robotic perception and control. However, their massive scale, often billions of parameters, poses significant challenges for real-time deployment, as inference becomes computationally expensive and latency-sensitive in dynamic environments. To address this, we propose Token Expand-and-Merge-VLA (TEAM-VLA), a training-free token compression framework that accelerates VLA inference while preserving task performance. TEAM-VLA introduces a dynamic token expansion mechanism that identifies and samples additional informative tokens in the spatial vicinity of attention-highlighted regions, enhancing contextual completeness. These expanded tokens are then selectively merged in deeper layers under action-aware guidance, effectively reducing redundancy while maintaining semantic coherence. By coupling expansion and merging within a single feed-forward pass, TEAM-VLA achieves a balanced trade-off between efficiency and effectiveness, without any retraining or parameter updates. Extensive experiments on LIBERO benchmark demonstrate that TEAM-VLA consistently improves inference speed while maintaining or even surpassing the task success rate of full VLA models. The code is public available on \href{https://github.com/Jasper-aaa/TEAM-VLA}{https://github.com/Jasper-aaa/TEAM-VLA}
- Abstract(参考訳): 大規模マルチモーダルデータセットで事前訓練されたビジョン・ランゲージ・アクション(VLA)モデルは、ロボットの知覚と制御の強力な基盤として現れている。
しかし、その膨大なスケール、しばしば数十億のパラメータは、推論が計算コストが高く、動的環境において遅延に敏感になるため、リアルタイムデプロイメントに重大な課題を生じさせる。
そこで本稿では,タスク性能を維持しながらVLA推論を高速化するトレーニングフリートークン圧縮フレームワークであるToken Expand-and-Merge-VLA(TEAM-VLA)を提案する。
TEAM-VLAは動的トークン拡張機構を導入し、注目領域の空間的近傍で付加的な情報トークンを識別し、サンプル化し、文脈的完全性を高める。
これらの拡張トークンは、アクション認識誘導の下で、より深い層に選択的にマージされ、セマンティックコヒーレンスを維持しながら、冗長性を効果的に低減する。
TEAM-VLAは、単一のフィードフォワードパス内で拡張とマージを結合することにより、再トレーニングやパラメータ更新を行わずに、効率と有効性のバランスの取れたトレードオフを実現する。
LIBEROベンチマークの大規模な実験により、TEAM-VLAは完全なVLAモデルのタスク成功率を維持したり、超えたりしながら、推論速度を一貫して改善することを示した。
コードは \href{https://github.com/Jasper-aa/TEAM-VLA}{https://github.com/Jasper-aa/TEAM-VLA} で公開されている。
関連論文リスト
- FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference [17.901428758295307]
VLA(Vision-Language-Action)モデルでは、AIの具現化に大きな期待が寄せられているが、計算コストによってリアルタイムのデプロイメントが制限されている。
本稿では,VLAモデルのデュアルシステム特性に適合する汎用的なプラグ・アンド・プレイ型VLA固有のトークンプルー法であるVLA-Prunerを提案する。
VLA-Prunerは、複数のVLAアーキテクチャと多様なロボットタスクにわたる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-20T15:16:09Z) - SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation [65.6201974979119]
本稿では,効率的なロボットマニピュレーションのためのセマンティックスペーシフィケーション・エンハンスメントを実現する新しいVLAフレームワークSemanticVLAを提案する。
SemanticVLAはOpenVLA on LIBEROベンチマークを21.1%上回り、トレーニングコストと推論遅延を3.0倍と2.7倍に削減した。
論文 参考訳(メタデータ) (2025-11-13T17:24:37Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。