論文の概要: LearnPruner: Rethinking Attention-based Token Pruning in Vision Language Models
- arxiv url: http://arxiv.org/abs/2604.23950v1
- Date: Mon, 27 Apr 2026 01:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.694713
- Title: LearnPruner: Rethinking Attention-based Token Pruning in Vision Language Models
- Title(参考訳): LearnPruner: 視覚言語モデルにおける注意に基づくトーケンプルーニングの再考
- Authors: Rinyoichi Takezoe, Yaqian Li, Zihao Bo, Anzhou Hou, Mo Guang, Kaiwen Long,
- Abstract要約: VLM(Vision-Language Models)は近年,視覚的理解と推論において顕著な能力を示した。
また、長い視覚的シーケンス入力による計算負荷も大きい。
近年の研究では、重要でない視覚トークンを抽出し、計算量を大幅に削減することでこの問題に対処している。
- 参考スコア(独自算出の注目度): 8.039490357019801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have recently demonstrated remarkable capabilities in visual understanding and reasoning, but they also impose significant computational burdens due to long visual sequence inputs. Recent works address this issue by pruning unimportant visual tokens, achieving substantial computational reduction while maintaining model performance. The core of token pruning lies in determining token importance, with current approaches primarily relying on attention scores from vision encoders or Large Language Models (LLMs). In this paper, we analyze the effectiveness of attention mechanisms in both vision encoders and LLMs. We find that vision encoders suffer from attention sink, leading to poor focus on informative foreground regions, while in LLMs, although prior studies have identified attention bias toward token positions, text-to-vision attention demonstrates resistance to this bias and enables effective pruning guidance in middle layers. Based on these observations, we propose LearnPruner, a two-stage token pruning framework that first removes redundant vision tokens via a learnable pruning module after the vision encoder, then retains only task-relevant tokens in the LLM's middle layer. Experimental results show that our LearnPruner can preserve approximately 95% of the original performance while using only 5.5% of vision tokens, and achieve 3.2$\times$ inference acceleration, demonstrating a superior accuracy-efficiency trade-off.
- Abstract(参考訳): VLM(Vision-Language Models)は近年,視覚的理解と推論において顕著な能力を発揮している。
近年の研究では、重要でない視覚トークンを抽出し、モデル性能を維持しながら計算量を大幅に削減することでこの問題に対処している。
トークンプルーニングのコアはトークンの重要性を決定することにあり、現在のアプローチは主に視覚エンコーダやLLM(Large Language Models)からの注意点に依存している。
本稿では,視覚エンコーダとLLMの両方におけるアテンションメカニズムの有効性を解析する。
我々は,視覚エンコーダが注意シンクに悩まされ,情報的フォアグラウンドに焦点が当てられず,LLMではトークン位置に対する注意バイアスが指摘されているが,テキスト・ツー・ビジョン・アテンションは,このバイアスに対する抵抗を示し,中層での効果的なプルーニングガイダンスを可能にする。
これらの観測に基づいて、LearnPrunerという2段階のトークンプルーニングフレームワークを提案する。このフレームワークは、視覚エンコーダの後に学習可能なプルーニングモジュールを介して冗長な視覚トークンを除去し、LLMの中間層にタスク関連トークンのみを保持する。
実験結果から,LearningPrunerは5.5%の視覚トークンを使用しながら,元の性能の約95%を維持でき,3.2$\times$推論高速化を実現し,精度と効率のトレードオフが優れていることが示された。
関連論文リスト
- CAPA: Contribution-Aware Pruning and FFN Approximation for Efficient Large Vision-Language Models [14.30682201364961]
本研究では,注目度をベクトルサイズで重み付けした注意貢献が,視覚的トークン選択のためのより正確な基準を提供することを示す。
本稿では、重要な機能遷移における注意貢献を用いて視覚トークンを創出する二重戦略フレームワークであるCAPA(Contribution-Aware Pruning and FFN Approximation)を紹介する。
論文 参考訳(メタデータ) (2026-01-30T19:09:03Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - Vision Remember: Alleviating Visual Forgetting in Efficient MLLM with Vision Feature Resample [30.263537686102016]
冗長な視覚トークンは膨大な量の計算メモリとリソースを消費する。
本研究では,LLMデコーダ層間に挿入され,視覚トークンが視覚機能を再記憶できるようにするビジョンリマインダを提案する。
再サンプリングの過程では、各視覚トークンは視覚特徴の局所的な領域にのみ参加する。
論文 参考訳(メタデータ) (2025-06-04T13:22:35Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference [3.9464481148889354]
我々は,グローバルな視点からトークンプルーニングにアプローチする,トレーニングフリーのプラグアンドプレイフレームワークSTAR(Stage-wise Attention-guided token Reduction)を提案する。
単一ポイントでプルーニングする代わりに、STARは視覚的自己注意に基づく早期プルーニングで冗長な低レベル特徴を除去し、タスク非関連トークンを捨てるために、クロスモーダルな注意でガイドされる後期プルーニングという2つの相補的な段階において注意誘導還元を行う。
論文 参考訳(メタデータ) (2025-05-18T10:44:45Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。