論文の概要: A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs
- arxiv url: http://arxiv.org/abs/2412.03324v2
- Date: Thu, 05 Dec 2024 12:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 11:19:25.506024
- Title: A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs
- Title(参考訳): 小型VLMは大型VLMを加速するための精密ガイダンスである
- Authors: Wangbo Zhao, Yizeng Han, Jiasheng Tang, Zhikai Li, Yibing Song, Kai Wang, Zhangyang Wang, Yang You,
- Abstract要約: 大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
- 参考スコア(独自算出の注目度): 65.00970402080351
- License:
- Abstract: Vision-language models (VLMs) have shown remarkable success across various multi-modal tasks, yet large VLMs encounter significant efficiency challenges due to processing numerous visual tokens. A promising approach to accelerating large VLM inference is using partial information, such as attention maps from specific layers, to assess token importance and prune less essential tokens. However, our study reveals three key insights: (i) Partial attention information is insufficient for accurately identifying critical visual tokens, resulting in suboptimal performance, especially at low token retention ratios; (ii) Global attention information, such as the attention map aggregated across all layers, more effectively preserves essential tokens and maintains comparable performance under aggressive pruning. However, the attention maps from all layers requires a full inference pass, which increases computational load and is therefore impractical in existing methods; and (iii) The global attention map aggregated from a small VLM closely resembles that of a large VLM, suggesting an efficient alternative. Based on these findings, we introduce a \textbf{training-free} method, \underline{\textbf{S}}mall VLM \underline{\textbf{G}}uidance for accelerating \underline{\textbf{L}}arge VLMs (\textbf{SGL}). Specifically, we employ the attention map aggregated from a small VLM to guide visual token pruning in a large VLM. Additionally, an early exiting mechanism is developed to fully use the small VLM's predictions, dynamically invoking the larger VLM only when necessary, yielding a superior trade-off between accuracy and computation. Extensive evaluations across 11 benchmarks demonstrate the effectiveness and generalizability of SGL, achieving up to 91\% pruning ratio for visual tokens while retaining competitive performance.
- Abstract(参考訳): 視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて顕著な成功を収めているが、多数の視覚トークンを処理するため、大きなVLMは大きな効率上の課題に直面している。
大きなVLM推論を加速するための有望なアプローチは、特定のレイヤからのアテンションマップのような部分的な情報を使用してトークンの重要性を評価し、より重要でないトークンを創出することである。
しかし、我々の研究は3つの重要な洞察を明らかにしている。
一 重要な視覚的トークンを正確に識別するには、部分的注意情報は不十分であり、特に低トークン保持率において、最適以下の性能をもたらす。
(II) 全ての層に集約されたアテンションマップのようなグローバルなアテンション情報は、より効果的に重要なトークンを保存し、アグレッシブプルーニングの下で同等のパフォーマンスを維持する。
しかし、すべての層からの注意マップには完全な推論パスが必要であるため、計算負荷が増加し、既存の手法では実行不可能である。
3) 小型のVLMから集約したグローバルアテンションマップは大型のVLMとよく似ており, 効率的な代替案であることが示唆されている。
これらの知見に基づいて,本論文では,VLM を高速化するための \textbf{training-free} 法である \underline{\textbf{S}}mall VLM \underline{\textbf{G}}uidance を導入する。
具体的には、小さなVLMから集約されたアテンションマップを用いて、大きなVLM内での視覚的トークンプルーニングを誘導する。
さらに、小さなVLMの予測を完全に活用し、必要なときにだけ大きなVLMを動的に呼び出し、精度と計算のトレードオフに優れた早期終了機構が開発されている。
11ベンチマークにわたる大規模な評価は、SGLの有効性と一般化性を示し、競合性能を維持しながら、視覚トークンの最大91\%のプルーニング比を達成する。
関連論文リスト
- FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - A-VL: Adaptive Attention for Large Vision-Language Models [10.027871150748956]
LVLM(Large Vision-Language Model)は、コンピュータビジョンと自然言語処理技術を統合し、アプリケーションの可能性を高める。
現在の適応アダプティブアテンション手法はトランスフォーマーベースの言語モデルのメモリ要求を大幅に削減する。
我々は、LVLMがリモート画像トークンとローカルテキストトークンの両方から応答を生成し、異なるモダリティが異なる注意パターンを持つのを観察した。
LVLM推論に適したプラグアンドプレイ適応型アダプティブアテンションであるA-VLを開発した。
論文 参考訳(メタデータ) (2024-09-23T09:22:59Z) - Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving [9.900979396513687]
MLLM(Multimodal large language model)は、自律運転システムにおけるシーン理解の促進に顕著な可能性を示している。
1つの大きな制限は、細粒度で長文の視覚情報を取得するのに必要な多数の視覚トークンから生じる。
本稿では,視覚トークンの総数を大幅に削減し,最も有能な情報を保存するためのビデオトークンスペーシフィケーション(VTS)を提案する。
論文 参考訳(メタデータ) (2024-09-16T05:31:01Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。
我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。