論文の概要: The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning
- arxiv url: http://arxiv.org/abs/2509.12594v1
- Date: Tue, 16 Sep 2025 02:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.847146
- Title: The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning
- Title(参考訳): 学習しやすく、より賢く:識別可能なトーケンプルーニングによる効率的な視覚言語アクションモデルを目指して
- Authors: Titong Jiang, Xuefeng Jiang, Yuan Ma, Xin Wen, Bailin Li, Kun Zhan, Peng Jia, Yahui Liu, Sheng Sun, Xianpeng Lang,
- Abstract要約: LightVLAは、視覚言語アクション(VLA)モデルのための差別化可能なトークンプルーニングフレームワークである。
ビジュアルトークンの重要性を評価するために動的クエリを生成し、差別化可能なトークン選択を可能にするためにGumbel softmaxを採用する。
光VLAはFLOPとレイテンシをそれぞれ59.1%、38.2%削減し、タスク成功率は2.9%改善した。
- 参考スコア(独自算出の注目度): 27.75632811770582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LightVLA, a simple yet effective differentiable token pruning framework for vision-language-action (VLA) models. While VLA models have shown impressive capability in executing real-world robotic tasks, their deployment on resource-constrained platforms is often bottlenecked by the heavy attention-based computation over large sets of visual tokens. LightVLA addresses this challenge through adaptive, performance-driven pruning of visual tokens: It generates dynamic queries to evaluate visual token importance, and adopts Gumbel softmax to enable differentiable token selection. Through fine-tuning, LightVLA learns to preserve the most informative visual tokens while pruning tokens which do not contribute to task execution, thereby improving efficiency and performance simultaneously. Notably, LightVLA requires no heuristic magic numbers and introduces no additional trainable parameters, making it compatible with modern inference frameworks. Experimental results demonstrate that LightVLA outperforms different VLA models and existing token pruning methods across diverse tasks on the LIBERO benchmark, achieving higher success rates with substantially reduced computational overhead. Specifically, LightVLA reduces FLOPs and latency by 59.1% and 38.2% respectively, with a 2.9% improvement in task success rate. Meanwhile, we also investigate the learnable query-based token pruning method LightVLA* with additional trainable parameters, which also achieves satisfactory performance. Our work reveals that as VLA pursues optimal performance, LightVLA spontaneously learns to prune tokens from a performance-driven perspective. To the best of our knowledge, LightVLA is the first work to apply adaptive visual token pruning to VLA tasks with the collateral goals of efficiency and performance, marking a significant step toward more efficient, powerful and practical real-time robotic systems.
- Abstract(参考訳): We present LightVLA, a simple yet effective differentiable token pruning framework for vision-lang-action (VLA) model。
VLAモデルは、現実のロボットタスクの実行において印象的な能力を示しているが、リソースに制約のあるプラットフォームへのデプロイは、大きな視覚トークンセットに対する重い注意に基づく計算によってボトルネックになることが多い。
ビジュアルトークンの重要性を評価するために動的クエリを生成し、Gumbel softmaxを採用して、異なるトークン選択を可能にする。
微調整により、LightVLAはタスク実行に寄与しないトークンをプルーニングしながら、最も情報性の高い視覚トークンを保存することを学び、効率と性能を同時に改善する。
特に、LightVLAはヒューリスティックなマジックナンバーを必要とせず、トレーニング可能なパラメータを追加せず、モダンな推論フレームワークと互換性がある。
実験の結果, LIBEROベンチマークにおいて, LightVLAは様々なVLAモデルや既存のトークンプルーニング手法よりも優れており, 計算オーバーヘッドを大幅に削減して高い成功率を達成した。
具体的には、LightVLAはFLOPとレイテンシをそれぞれ59.1%、38.2%削減し、タスク成功率は2.9%改善した。
また、学習可能なクエリベースのトークンプルーニング手法LightVLA*についても、トレーニング可能なパラメータを追加して検討し、良好な性能を実現した。
我々の研究は、VLAが最適なパフォーマンスを追求するにつれて、LightVLAは自発的にパフォーマンス駆動の観点からトークンを創出することを学びます。
われわれの知る限りでは、LightVLAはVLAタスクに適応的な視覚トークンプルーニングを適用して効率と性能を両立させる最初の試みであり、より効率的で強力で実用的なリアルタイムロボットシステムに向けた重要な一歩である。
関連論文リスト
- CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification [48.81250395291505]
最近のVision-Language-Actionモデルは、広範な後トレーニングを必要とし、高い計算オーバーヘッドをもたらす。
命令駆動型ルーティングとスパーシフィケーションを利用して効率と性能を両立させるフレームワークであるCogVLAを提案する。
CogVLAは、それぞれ97.4%と70.0%の成功率で最先端のパフォーマンスを達成し、トレーニングコストを2.5倍に、推論遅延を2.8倍に削減した。
論文 参考訳(メタデータ) (2025-08-28T17:50:58Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。