論文の概要: Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.12618v1
- Date: Fri, 13 Feb 2026 04:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.850889
- Title: Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models
- Title(参考訳): 意識駆動型自己圧縮による多モーダル大規模言語モデルの視覚的トーケン低減
- Authors: Omer Faruk Deniz, Ruiyu Mao, Ruochen Li, Yapeng Tian, Latifur Khan,
- Abstract要約: MLLM(Multimodal Large Language Models)は、複数の視覚トークンを全てのレイヤで処理することで、計算コストを大幅に削減する。
LLMの注意機構のみを用いて、視覚トークンを段階的に削減する、シンプルで広く適用可能な方法である、注意駆動型自己圧縮(ADSC)を導入する。
ADSCはFLOPを53.7%、KVキャッシュメモリを56.7%削減し、オリジナルモデルの98.2%を保存した。
- 参考スコア(独自算出の注目度): 34.12135666939555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) incur significant computational cost from processing numerous vision tokens through all LLM layers. Prior pruning methods operate either before the LLM, limiting generality due to diverse encoder-projector designs or within the LLM using heuristics that are incompatible with FlashAttention. We take a different approach: rather than identifying unimportant tokens, we treat the LLM itself as the optimal guide for compression. Observing that deeper layers naturally transmit vision-to-text information, we introduce Attention-Driven Self-Compression (ADSC), a simple, broadly applicable method that progressively reduces vision tokens using only the LLM's attention mechanism. Our method applies uniform token downsampling at selected layers, forming bottlenecks that encourage the model to reorganize and compress information into the remaining tokens. It requires no score computation, auxiliary modules, or attention modification, and remains fully compatible with FlashAttention. Applied to LLaVA-1.5, ADSC reduces FLOPs by 53.7% and peak KV-cache memory by 56.7%, while preserving 98.2% of the original model performance. Across multiple benchmarks, it outperforms prior pruning approaches in both efficiency and accuracy. Crucially, under high compression ratios, our method remains robust while heuristic-based techniques degrade sharply.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、複数の視覚トークンを全てのLLM層を通して処理することで、計算コストを大幅に削減する。
LLM 以前のプルーニング法は、様々なエンコーダ・プロジェクタ設計による一般性を制限するか、FlashAttention と互換性のないヒューリスティックを使って LLM 内で動作していた。
重要でないトークンを識別するのではなく、LLM自体を圧縮の最適ガイドとして扱う。
より深い層が自然に視覚からテキストへ情報を伝達するのを観察し,LLMの注意機構のみを用いて視覚トークンを段階的に低減する,シンプルで広く適用可能な方法である注意駆動自己圧縮(ADSC)を導入する。
提案手法は,選択した層に均一なトークンダウンサンプリングを適用し,残余のトークンに情報を再編成・圧縮するよう促すボトルネックを形成する。
スコア計算、補助モジュール、アテンション修正は不要で、FlashAttentionと完全に互換性がある。
LLaVA-1.5に適用されたADSCは、FLOPを53.7%、ピークKVキャッシュメモリを56.7%削減し、オリジナルのモデル性能の98.2%を維持した。
複数のベンチマークで、効率と正確性の両方において、事前のプルーニングアプローチよりも優れています。
重要なことに,高い圧縮比の下では,ヒューリスティックな手法が急激に低下する一方,我々の手法は頑健なままである。
関連論文リスト
- Q Cache: Visual Attention is Valuable in Less than Half of Decode Layers for Multimodal Large Language Model [21.206033754351786]
マルチモーダル大言語モデル(MLLM)は、視覚トークンの拡散に起因する外乱推論コストに悩まされている。
既存のアプローチでは、トークンの最適化に重点を置いており、さまざまなトークンプルーニング技術を活用して、非極端なビジュアルトークンを排除している。
同様の注意パターンの層間共有を可能にする効果的な注意機構であるLazy Attentionを提案する。
論文 参考訳(メタデータ) (2026-02-02T10:08:00Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs [82.72388893596555]
MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
論文 参考訳(メタデータ) (2025-10-18T17:54:18Z) - Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective [6.258220461022373]
既存のMultimodal Large Language Models (MLLM) は多数の視覚トークンを処理し、計算コストと非効率性をもたらす。
トークン圧縮はLLMの入力段階では不可能な性能損失で実現可能であることを示す。
本稿では,第1のLCMレイヤのアテンションマップから説明結果へのマッピングを学習し,完全な推論パスの必要性を回避することを提案する。
論文 参考訳(メタデータ) (2025-06-01T17:44:16Z) - HoliTom: Holistic Token Merging for Fast Video Large Language Models [32.620504076794795]
ビデオ言語モデル(ビデオLLM)は、ビデオ理解において優れるが、冗長なビデオトークンによる計算不効率に直面する。
HoliTomは、新しいトレーニング不要な全体的トークンフレームワークである。
また,内部LLMトークンの類似性に基づくマージ手法を導入する。
論文 参考訳(メタデータ) (2025-05-27T15:28:45Z) - Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。