論文の概要: ASAP: Attention-Shift-Aware Pruning for Efficient LVLM Inference
- arxiv url: http://arxiv.org/abs/2603.14549v1
- Date: Sun, 15 Mar 2026 18:51:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.880853
- Title: ASAP: Attention-Shift-Aware Pruning for Efficient LVLM Inference
- Title(参考訳): ASAP: 効率的なLVLM推論のためのアテンションシフト対応プルーニング
- Authors: Surendra Pathak, Bo Han,
- Abstract要約: 本稿では,新しいトレーニングフリーなKVキャッシュ対応プルーニングレシピであるASAPを提案する。
ダイナミックな双方向ソフトアテンションマスクを利用することで、アテンションシフトを緩和する。
また、トークンセット内の高い意味的冗長性は性能を低下させると仮定する。
- 参考スコア(独自算出の注目度): 26.71949723961501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Vision-Language Models (LVLMs) demonstrate exceptional multi-modal capabilities, the quadratic computational cost of processing high-resolution visual tokens remains a critical bottleneck. Though recent token reduction strategies attempt to accelerate inference, such methods inadequately exploit attention values and fail to address token redundancy. More critically, they overlook the ``attention shift'' phenomenon inherent in LVLMs, which skews token attention scores. In this work, we propose ASAP, a novel training-free, KV-Cache-compatible pruning recipe that comprehensively addresses these limitations. First, we mitigate the attention shift by utilizing a dynamic bidirectional soft attention mask, ensuring the selection of genuinely informative tokens rather than naive attention-based selection. Second, we posit that high semantic redundancy within the token set degrades performance. We therefore introduce a weighted soft merging component that merges semantically similar tokens, preserving only the most feature-dense visual patches for subsequent layers. ASAP achieves virtually lossless compression of visual context, retaining 99.02% of the original LLaVA-NeXT-7B performance while aggressively slashing computational FLOPs by ~80%.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は例外的なマルチモーダル能力を示すが、高解像度のビジュアルトークンを処理する2次計算コストは依然として重要なボトルネックである。
最近のトークン削減戦略は推論を高速化しようとするが、注意値を不適切に利用し、トークンの冗長性に対処できない。
より重要なことに、彼らはトークン注意スコアを歪ませるLVLMに固有の'アテンションシフト'現象を見落としている。
本研究では,これらの制約を包括的に解決する新しいトレーニングフリーなKVキャッシュ対応プルーニングレシピであるASAPを提案する。
まず、動的双方向のソフトアテンションマスクを利用することにより、注意シフトを緩和し、注意に基づく選択よりも真に情報的なトークンの選択を確実にする。
次に、トークンセット内の高い意味的冗長性は性能を低下させると仮定する。
したがって、重み付けされたソフトマージコンポーネントを導入し、セマンティックに類似したトークンをマージする。
ASAPは視覚的コンテキストの事実上のロスレス圧縮を実現し、元のLLaVA-NeXT-7Bの性能の99.02%を維持しながら、計算FLOPを約80%削減した。
関連論文リスト
- Q Cache: Visual Attention is Valuable in Less than Half of Decode Layers for Multimodal Large Language Model [21.206033754351786]
マルチモーダル大言語モデル(MLLM)は、視覚トークンの拡散に起因する外乱推論コストに悩まされている。
既存のアプローチでは、トークンの最適化に重点を置いており、さまざまなトークンプルーニング技術を活用して、非極端なビジュアルトークンを排除している。
同様の注意パターンの層間共有を可能にする効果的な注意機構であるLazy Attentionを提案する。
論文 参考訳(メタデータ) (2026-02-02T10:08:00Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - Variation-aware Vision Token Dropping for Faster Large Vision-Language Models [24.952668143243542]
大規模視覚言語モデル(LVLM)はマルチモーダル理解タスクにおいて顕著な機能を示した。
トーケン圧縮は、処理されるトークンの数を減らすことにより、計算効率を向上させることにより、直接的な解を提供する。
我々は,LVLM推論中に最小限の変動を伴う視覚トークンを段階的に除去する,変分認識型視覚トークンドロップ(textiti.e., textbfV$2$Drop)を提案する。
論文 参考訳(メタデータ) (2025-09-01T15:28:44Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features [24.33252753245426]
我々は、相互注意マップにおけるスパースの性質を利用して、冗長な視覚的特徴を選択的に創り出す。
我々のモデルは、ベンチマークパリティを達成しながら、推論レイテンシとメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2025-04-01T09:10:32Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。