論文の概要: STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference
- arxiv url: http://arxiv.org/abs/2505.12359v1
- Date: Sun, 18 May 2025 10:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.187627
- Title: STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference
- Title(参考訳): STAR:高能率視覚言語モデル推論のためのステージワイズ注意誘導トークン削減
- Authors: Yichen Guo, Hanze Li, Zonghao Zhang, Jinhao You, Kai Tang, Xiande Huang,
- Abstract要約: 我々は,グローバルな視点からトークンプルーニングにアプローチする,トレーニングフリーのプラグアンドプレイフレームワークSTAR(Stage-wise Attention-guided token Reduction)を提案する。
単一ポイントでプルーニングする代わりに、STARは視覚的自己注意に基づく早期プルーニングで冗長な低レベル特徴を除去し、タスク非関連トークンを捨てるために、クロスモーダルな注意でガイドされる後期プルーニングという2つの相補的な段階において注意誘導還元を行う。
- 参考スコア(独自算出の注目度): 3.9464481148889354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large vision-language models (LVLMs) leverage rich visual token representations to achieve strong performance on multimodal tasks, these tokens also introduce significant computational overhead during inference. Existing training-free token pruning methods typically adopt a single-stage strategy, focusing either on visual self-attention or visual-textual cross-attention. However, such localized perspectives often overlook the broader information flow across the model, leading to substantial performance degradation, especially under high pruning ratios. In this work, we propose STAR (Stage-wise Attention-guided token Reduction), a training-free, plug-and-play framework that approaches token pruning from a global perspective. Instead of pruning at a single point, STAR performs attention-guided reduction in two complementary stages: an early-stage pruning based on visual self-attention to remove redundant low-level features, and a later-stage pruning guided by cross-modal attention to discard task-irrelevant tokens. This holistic approach allows STAR to significantly reduce computational cost while better preserving task-critical information. Extensive experiments across multiple LVLM architectures and benchmarks show that STAR achieves strong acceleration while maintaining comparable, and in some cases even improved performance.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、リッチな視覚トークン表現を利用してマルチモーダルタスクの性能を向上するが、これらのトークンは推論中にかなりの計算オーバーヘッドをもたらす。
既存のトレーニングフリートークンプルーニング手法は、通常、視覚的自己注意または視覚的テキスト横断的注意に焦点を当てた単一ステージ戦略を採用する。
しかし、そのような局所的な視点は、しばしばモデル全体の幅広い情報の流れを見落とし、特に高いプルーニング比の下で、性能が著しく低下する。
本研究では,STAR(Stage-wise Attention-guided token Reduction)を提案する。
単一ポイントでプルーニングする代わりに、STARは視覚的自己注意に基づく早期プルーニングで冗長な低レベル特徴を除去し、タスク非関連トークンを捨てるために、クロスモーダルな注意でガイドされる後期プルーニングという2つの相補的な段階において注意誘導還元を行う。
この総合的なアプローチにより、STARはタスククリティカルな情報をよりよく保存しながら、計算コストを大幅に削減できる。
複数のLVLMアーキテクチャとベンチマークにわたる大規模な実験により、STARは同等を維持しながら強力な加速を実現し、場合によっては性能も向上した。
関連論文リスト
- Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features [24.33252753245426]
我々は、相互注意マップにおけるスパースの性質を利用して、冗長な視覚的特徴を選択的に創り出す。
我々のモデルは、ベンチマークパリティを達成しながら、推論レイテンシとメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2025-04-01T09:10:32Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。