論文の概要: BlindSight: Harnessing Sparsity for Efficient VLMs
- arxiv url: http://arxiv.org/abs/2507.09071v1
- Date: Fri, 11 Jul 2025 23:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.261725
- Title: BlindSight: Harnessing Sparsity for Efficient VLMs
- Title(参考訳): BlindSight: 効率的なVLMのためのハーネス
- Authors: Tharun Adithya Srikrishnan, Deval Shah, Steven K. Reinhardt,
- Abstract要約: BlindSightは、入力テンプレート認識型注意空間マスクを用いてVLM推論を最適化するためのトレーニング不要なアプローチである。
BlindSightは、多くの評価されたマルチイメージ理解ベンチマークにおいて、オリジナルのモデルと比較して平均で32%-41%のFLOPを -2%-+2%の精度で削減する。
- 参考スコア(独自算出の注目度): 4.756688231351083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) enable the joint processing of text and images. However, the inclusion of vision data significantly expands the prompt length. Along with the quadratic complexity of the attention computation, this results in a longer prefill duration. An approach to mitigate this bottleneck is to leverage the inherent sparsity in the attention computation. In our analysis of attention patterns in VLMs, we observe that a substantial portion of layers exhibit minimal cross-image attention, except through attention-sink tokens per image. These sparse attention patterns fall into distinct categories: sink-only, document mask and a hybrid document-sink mask. Based on this, we propose BlindSight: a training-free approach to optimize VLM inference using a input template-aware attention sparsity mask. We utilize samples from a dataset to derive a prompt-agnostic sparsity categorization for every attention head. We evaluate the proposed technique using VLMs such as Qwen2-VL, Qwen2.5-VL and Gemma-3. BlindSight results in a 32%-41% reduction in FLOPs on average with -2%-+2% accuracy compared to the original model in most evaluated multi-image understanding benchmarks.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、テキストと画像の共同処理を可能にする。
しかし、視覚データを含めることで、プロンプトの長さが大幅に拡大する。
注意計算の二次的な複雑さとともに、これはより長い前処理期間をもたらす。
このボトルネックを緩和するためのアプローチは、注意計算における本質的にの空間性を活用することである。
VLMにおける注意パターンの解析では、画像ごとの注意シンクトークンを除いて、かなりの部分の層が最小のクロスイメージアテンションを示すことが観察された。
これらの疎い注意パターンは、シンクオンリー、ドキュメントマスク、ハイブリッドドキュメントシンクマスクの2つのカテゴリに分類される。
そこで我々はBlindSightを提案する。BlindSightは、入力テンプレート認識型注意空間マスクを用いて、VLM推論を最適化するためのトレーニング不要なアプローチである。
我々は、データセットからのサンプルを使用して、すべての注目ヘッドに対して、即時非依存のスパーシリティ分類を導出する。
提案手法は,Qwen2-VL,Qwen2.5-VL,Gemma-3などのVLMを用いて評価した。
BlindSightは、多くの評価されたマルチイメージ理解ベンチマークにおいて、オリジナルのモデルと比較して平均で32%-41%のFLOPを -2%-+2%の精度で削減する。
関連論文リスト
- FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering [5.840924060437216]
我々は、最も関連性の高い画像領域の探索をガイドする、FOCUSと呼ばれる訓練不要な視覚的収穫法を提案する。
FOCUSは4つの細粒度VQAデータセットと2種類のMLLMに対して高いパフォーマンスを実現している。
精度と効率の両面で人気の高い3つのビジュアルトリミング法を上回り、最高のパフォーマンスのベースラインであるZoomEyeに匹敵する。
論文 参考訳(メタデータ) (2025-06-26T18:51:04Z) - High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features [24.33252753245426]
我々は、相互注意マップにおけるスパースの性質を利用して、冗長な視覚的特徴を選択的に創り出す。
我々のモデルは、ベンチマークパリティを達成しながら、推論レイテンシとメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2025-04-01T09:10:32Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - FilterViT and DropoutViT [0.0]
我々は、ダウンサンプリングの初期段階で注意に基づくQKV操作を行うViTの強化版を紹介した。
本稿では,フィルタブロックを用いて注目画素を選択するための有能マスクを作成するフィルタアテンション機構を提案する。
このアプローチは、注意に関わるトークンの数を効果的に減らし、計算複雑性を減らし、処理速度を向上する。
論文 参考訳(メタデータ) (2024-10-30T05:38:03Z) - AVG-LLaVA: A Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
AVG-LLaVAは11のベンチマークで優れた性能を示し、視覚トークンの数を大幅に削減し、推論を高速化する。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。