論文の概要: ETA-VLA: Efficient Token Adaptation via Temporal Fusion and Intra-LLM Sparsification for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.25766v1
- Date: Thu, 26 Mar 2026 06:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.197252
- Title: ETA-VLA: Efficient Token Adaptation via Temporal Fusion and Intra-LLM Sparsification for Vision-Language-Action Models
- Title(参考訳): ETA-VLA : 経時的核融合とLLM内スペーサー化による視覚・言語・反応モデルにおける効率的なToken Adaptation
- Authors: Yiru Wang, Anqing Jiang, Shuo Wang, Yuwen Heng, Zichong Gu, Hao Sun,
- Abstract要約: 本稿では,VLAモデルの効率的なToken AdaptationフレームワークであるETA-VLAを提案する。
ETA-VLAは最先端のベースラインに匹敵する運転性能が得られることを示す。
提案手法は, 85%の視覚トークンを抽出し, FLOPを61%削減するが, NAVSIM v2ベンチマークでは元の精度の94%を維持している。
- 参考スコア(独自算出の注目度): 14.841746872486333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Vision-Language-Action (VLA) models into autonomous driving systems offers a unified framework for interpreting complex scenes and executing control commands. However, the necessity to incorporate historical multi-view frames for accurate temporal reasoning imposes a severe computational burden, primarily driven by the quadratic complexity of self-attention mechanisms in Large Language Models (LLMs). To alleviate this bottleneck, we propose ETA-VLA, an Efficient Token Adaptation framework for VLA models. ETA-VLA processes the past $n$ frames of multi-view images and introduces a novel Intra-LLM Sparse Aggregator (ILSA). Drawing inspiration from human driver attention allocation, ILSA dynamically identifies and prunes redundant visual tokens guided by textual queries and temporal consistency. Specifically, we utilize a text-guided scoring mechanism alongside a diversity-preserving sparsification strategy to select a sparse subset of critical tokens, ensuring comprehensive awareness of the driving scene. Extensive experiments on the NAVSIM v2 demonstrate that ETA-VLA achieves driving performance comparable to state-of-the-art baselines while reducing computational FLOPs by approximately 32\%. Notably, our method prunes 85% of visual tokens and reduces inference FLOPs by 61\%, but still retaining 94% of the original accuracy on the NAVSIM v2 benchmark.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルの自律走行システムへの統合は、複雑なシーンを解釈し、制御コマンドを実行するための統一されたフレームワークを提供する。
しかし、正確な時間的推論のために歴史的多視点フレームを組み込む必要性は、主に大規模言語モデル(LLM)における自己認識機構の2次複雑さによって引き起こされる、厳しい計算負担を課す。
このボトルネックを軽減するために,VLAモデルの効率的なトークン適応フレームワークであるETA-VLAを提案する。
ETA-VLAは複数ビュー画像の過去$n$フレームを処理し、新しいLLMスパースアグリゲータ(ILSA)を導入している。
人間のドライバーの注意の割り当てからインスピレーションを得たILSAは、テキストクエリと時間的一貫性によってガイドされる冗長な視覚トークンを動的に識別し、プーンする。
具体的には,テキスト誘導型スコアリング機構と多様性保存型スペーシフィケーション戦略を用いて,重要トークンの少ないサブセットを選択し,運転シーンの包括的認識を確保する。
NAVSIM v2の大規模な実験により、ETA-VLAは最先端のベースラインに匹敵する駆動性能を達成し、計算FLOPを約32\%削減した。
特に,本手法では,視覚トークンの85%をプルークし,推論FLOPを61 %削減するが,NAVSIM v2ベンチマークでは元の精度の94%を維持している。
関連論文リスト
- Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement [27.517125673741486]
VLA(Vision-Language-Action)モデルは、汎用的なロボット制御のための有望なパラダイムとして登場した。
マルチレベル静的および動的トークンに視覚入力をアンタングルするフレームワークであるSD-VLAを提案する。
本稿では,VLAの長期時間依存性モデリング機能をより効果的に評価する新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-03T20:17:47Z) - VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference [17.901428758295307]
VLA(Vision-Language-Action)モデルでは、AIの具現化に大きな期待が寄せられているが、計算コストによってリアルタイムのデプロイメントが制限されている。
本稿では,VLAモデルのデュアルシステム特性に適合する汎用的なプラグ・アンド・プレイ型VLA固有のトークンプルー法であるVLA-Prunerを提案する。
VLA-Prunerは、複数のVLAアーキテクチャと多様なロボットタスクにわたる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-20T15:16:09Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification [48.81250395291505]
最近のVision-Language-Actionモデルは、広範な後トレーニングを必要とし、高い計算オーバーヘッドをもたらす。
命令駆動型ルーティングとスパーシフィケーションを利用して効率と性能を両立させるフレームワークであるCogVLAを提案する。
CogVLAは、それぞれ97.4%と70.0%の成功率で最先端のパフォーマンスを達成し、トレーニングコストを2.5倍に、推論遅延を2.8倍に削減した。
論文 参考訳(メタデータ) (2025-08-28T17:50:58Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning [1.4087249809872509]
VLM(Vision-Language Models)は、シーン認識、推論、意思決定を強化する可能性を示している。
既存のモデルは、計算オーバーヘッドとマルチビューセンサーデータの非効率な統合に悩まされている。
本稿では,新しいテキストガイドソフトソートプール(TGSSP)モジュールを組み込んだ,TS-VLMという軽量なVLMを提案する。
論文 参考訳(メタデータ) (2025-05-19T03:37:15Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。