論文の概要: Growing a Twig to Accelerate Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.14075v1
- Date: Tue, 18 Mar 2025 09:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:57.362948
- Title: Growing a Twig to Accelerate Large Vision-Language Models
- Title(参考訳): 大型ビジョンランゲージモデルの高速化のための小枝の育成
- Authors: Zhenwei Shao, Mingyang Wang, Zhou Yu, Wenwen Pan, Yan Yang, Tao Wei, Hongyuan Zhang, Ning Mao, Wei Chen, Jun Yu,
- Abstract要約: 本稿では,基本VLMの初期層上に軽量な小枝を成長させることにより,シンプルで汎用的なアーキテクチャであるTwigVLMを紹介する。
視覚トークンプルーニングに基づく既存のほとんどのVLMアクセラレーション手法と比較して、我々のTwigVLMは精度を向上するだけでなく、精度の維持も達成している。
- 参考スコア(独自算出の注目度): 36.96491490147654
- License:
- Abstract: Large vision-language models (VLMs) have demonstrated remarkable capabilities in open-world multimodal understanding, yet their high computational overheads pose great challenges for practical deployment. Some recent works have proposed methods to accelerate VLMs by pruning redundant visual tokens guided by the attention maps of VLM's early layers. Despite the success of these token pruning methods, they still suffer from two major shortcomings: (i) considerable accuracy drop due to insensitive attention signals in early layers, and (ii) limited speedup when generating long responses (e.g., 30 tokens). To address the limitations above, we present TwigVLM -- a simple and general architecture by growing a lightweight twig upon an early layer of the base VLM. Compared with most existing VLM acceleration methods purely based on visual token pruning, our TwigVLM not only achieves better accuracy retention by employing a twig-guided token pruning (TTP) strategy, but also yields higher generation speed by utilizing a self-speculative decoding (SSD) strategy. Taking LLaVA-1.5-7B as the base VLM, experimental results show that TwigVLM preserves 96% of the original performance after pruning 88.9% of visual tokens and achieves 154% speedup in generating long responses, delivering significantly better performance in terms of both accuracy and speed over the state-of-the-art VLM acceleration methods. Code will be made publicly available.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、オープンワールドのマルチモーダル理解において顕著な能力を示してきたが、その高い計算オーバーヘッドは、実用的な展開に大きな課題をもたらす。
いくつかの最近の研究は、VLMの初期層の注意マップで案内される冗長な視覚トークンを抽出することで、VLMを加速する方法を提案している。
これらのトークンプルーニング手法の成功にもかかわらず、それらは依然として2つの大きな欠点に悩まされている。
一 初期層における不感な注意信号による相当な精度低下
(ii)長い応答(例:30トークン)を発生させる際の制限されたスピードアップ。
上記の制限に対処するため、我々はTwigVLM - ベースVLMの初期層上に軽量なトウィグを成長させることにより、シンプルで一般的なアーキテクチャである。
従来のVLMアクセラレーション手法に比べて,Twig-guided token pruning (TTP) 戦略を用いることで,より精度の高い保持を実現するだけでなく,自己投機的復号化(SSD)戦略を利用することにより,より高速な生成速度が得られる。
LLaVA-1.5-7BをベースVLMとし、トウィグVLMは88.9%の視覚トークンをプルーニングした後、元の性能の96%を保ち、ロングレスポンスの生成において154%の高速化を実現し、最先端のVLM加速法よりも精度と速度の両面で大幅に向上した。
コードは公開されます。
関連論文リスト
- Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration [19.683461002518147]
言語モデル内の視覚トークンの早期プルーニングにおけるアクセラレーション手法について検討する。
多くのタスクにまたがる強力なパフォーマンスは、視覚情報を圧縮する異常な能力によるものではなく、よりきめ細かい視覚能力を評価するためのベンチマークの限られた能力によるものである。
FEATHERは,初期階層の刈り込みによる識別問題を解決するための簡単な手法である。
論文 参考訳(メタデータ) (2024-12-17T18:56:50Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - [CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster [26.025260449905577]
大規模言語モデル(LLM)におけるテキスト・ビジュアル・クロスアテンションに基づく視覚トークンの重要性を評価する既存手法
我々は、視覚的トークンの重要性をより正確に評価する、トレーニング不要な視覚的トークンプルーニング手法であるFasterVLMを紹介した。
FasterVLMは、LLaVA-1.5-7Bの性能の90%を維持しながら、95%の視覚トークンをプルーする。
論文 参考訳(メタデータ) (2024-12-02T18:57:40Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。