論文の概要: SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference
- arxiv url: http://arxiv.org/abs/2410.04417v3
- Date: Thu, 06 Feb 2025 14:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:30:25.232857
- Title: SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference
- Title(参考訳): SparseVLM: 効率的な視覚・言語モデル推論のための視覚トークンスカラー化
- Authors: Yuan Zhang, Chun-Kai Fan, Junpeng Ma, Wenzhao Zheng, Tao Huang, Kuan Cheng, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Shanghang Zhang,
- Abstract要約: 視覚言語モデル (VLM) では、視覚トークンはテキストトークンと比較して情報量が多すぎるにもかかわらず、計算オーバーヘッドがかなり大きい。
本稿では、余分なパラメータや微調整コストを不要とするSparseVLMと呼ばれるテキスト誘導型トレーニングフリートークン最適化機構を提案する。
- 参考スコア(独自算出の注目度): 45.11612407862277
- License:
- Abstract: In vision-language models (VLMs), visual tokens usually bear a significant amount of computational overhead despite sparsity of information in them when compared to text tokens. To address this, most existing methods learn a network to prune redundant visual tokens using certain training data. Differently, we propose a text-guided training-free token optimization mechanism dubbed SparseVLM that eliminates the need of extra parameters or fine-tuning costs. Given that visual tokens complement text tokens in VLM's linguistic reasoning, we select relevant text tokens to rate the significance of visual tokens using self-attention matrices and, then, prune visual tokens using the proposed strategy to maximize sparsity while retaining information. In particular, we introduce a rank-based strategy to adaptively determine the sparsification ratio for each layer, alongside a token recycling method that compresses pruned tokens into more compact representations. Experimental results show that SparseVLM increases the efficiency of various VLMs in a number of image and video understanding tasks. For example, LLaVA when equipped with SparseVLM achieves 54% reduction in FLOPs, 37% decrease in CUDA latency while maintaining 97% of its original accuracy. Our code is available at https://github.com/Gumpest/SparseVLMs.
- Abstract(参考訳): 視覚言語モデル (VLM) では、視覚トークンはテキストトークンと比較して情報量が多すぎるにもかかわらず、計算オーバーヘッドがかなり大きい。
これを解決するために、既存のほとんどのメソッドは、特定のトレーニングデータを使用して冗長な視覚トークンをプルークするネットワークを学習する。
そこで本研究では,SparseVLMと呼ばれるテキスト誘導型トレーニングフリートークン最適化機構を提案する。
視覚トークンがVLMの言語的推論においてテキストトークンを補完することを考えると,視覚トークンの意義を自己注意行列を用いて評価するために関連するテキストトークンを選択する。
特に,各層におけるスペーサー化率を適応的に決定するランクベース戦略と,よりコンパクトな表現にプルーンドトークンを圧縮するトークンリサイクル手法を導入する。
実験結果から,SparseVLMは画像理解タスクや映像理解タスクにおいて,様々なVLMの効率を向上させることが示された。
例えば、SparseVLMを搭載したLLaVAは、FLOPを54%削減し、CUDAレイテンシを37%削減し、元の精度の97%を維持している。
私たちのコードはhttps://github.com/Gumpest/SparseVLMsで利用可能です。
関連論文リスト
- VASparse: Towards Efficient Visual Hallucination Mitigation for Large Vision-Language Model via Visual-Aware Sparsification [44.97217246897902]
LVLM(Large Vision-Language Models)は、視覚幻覚(VH)としても知られる、現実に忠実でない出力を生成する。
Visual-Aware Sparsification (VASparse) を用いた効率的なプラグアンドプレイデコーディングアルゴリズムを提案する。
VHを緩和し、競争力のある復号速度を維持しながら、VASparseは最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-01-11T14:09:34Z) - ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。
$textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-28T10:17:29Z) - [CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster [26.025260449905577]
大規模言語モデル(LLM)におけるテキスト・ビジュアル・クロスアテンションに基づく視覚トークンの重要性を評価する既存手法
我々は、視覚的トークンの重要性をより正確に評価する、トレーニング不要な視覚的トークンプルーニング手法であるFasterVLMを紹介した。
FasterVLMは、LLaVA-1.5-7Bの性能の90%を維持しながら、95%の視覚トークンをプルーする。
論文 参考訳(メタデータ) (2024-12-02T18:57:40Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers [32.167072183575925]
本稿では,より小さなレジスタトークン集合に要約することで,視覚トークンの数を削減できる手法を提案する。
ビクターは4%未満の精度低下を示し、トレーニング時間を43%削減し、推論スループットを3.3倍に向上させる。
論文 参考訳(メタデータ) (2024-10-17T22:45:13Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。