論文の概要: VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.22654v1
- Date: Wed, 28 May 2025 17:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.793083
- Title: VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models
- Title(参考訳): VScan: 効率的な大規模ビジョンランゲージモデルのためのビジュアルトークン削減を再考する
- Authors: Ce Zhang, Kaixin Ma, Tianqing Fang, Wenhao Yu, Hongming Zhang, Zhisong Zhang, Yaqi Xie, Katia Sycara, Haitao Mi, Dong Yu,
- Abstract要約: VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
- 参考スコア(独自算出の注目度): 57.2662376527586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Large Vision-Language Models (LVLMs) have advanced multi-modal understanding by incorporating finer-grained visual perception and encoding. However, such methods incur significant computational costs due to longer visual token sequences, posing challenges for real-time deployment. To mitigate this, prior studies have explored pruning unimportant visual tokens either at the output layer of the visual encoder or at the early layers of the language model. In this work, we revisit these design choices and reassess their effectiveness through comprehensive empirical studies of how visual tokens are processed throughout the visual encoding and language decoding stages. Guided by these insights, we propose VScan, a two-stage visual token reduction framework that addresses token redundancy by: (1) integrating complementary global and local scans with token merging during visual encoding, and (2) introducing pruning at intermediate layers of the language model. Extensive experimental results across four LVLMs validate the effectiveness of VScan in accelerating inference and demonstrate its superior performance over current state-of-the-arts on sixteen benchmarks. Notably, when applied to LLaVA-NeXT-7B, VScan achieves a 2.91$\times$ speedup in prefilling and a 10$\times$ reduction in FLOPs, while retaining 95.4% of the original performance.
- Abstract(参考訳): 近年のLVLM(Large Vision-Language Models)は、よりきめ細かな視覚認識と符号化を取り入れて、高度なマルチモーダル理解を実現している。
しかし、このような手法は、より長い視覚トークンシーケンスのためにかなりの計算コストを発生させ、リアルタイムデプロイメントの課題を提起する。
これを軽減するために、以前の研究では、視覚エンコーダの出力層または言語モデルの初期層で重要でない視覚トークンをプルーニングすることを検討した。
本研究では、これらの設計選択を再考し、視覚的エンコーディングと言語復号段階を通して視覚的トークンがどのように処理されるかに関する総合的な実証的研究を通して、その効果を再評価する。
これらの知見に導かれたVScanは,トークン冗長性に対処する2段階の視覚的トークン削減フレームワークである。(1)視覚的エンコーディング中に,補完的グローバルスキャンと局所スキャンを統合し,(2)言語モデルの中間層にプルーニングを導入する。
4つのLVLMにまたがる大規模な実験結果から,VScanによる推論の高速化の有効性が検証された。
特に、LLaVA-NeXT-7Bに適用すると、VScanはプリフィル時の2.91$\times$のスピードアップと10$\times$のFLOPを実現し、オリジナルのパフォーマンスの95.4%を維持している。
関連論文リスト
- ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - FCoT-VL:Advancing Text-oriented Large Vision-Language Models with Efficient Visual Token Compression [16.53645461974695]
現在の訓練不要なビジュアルトークン圧縮法は、高解像度画像を含むタスクにおいて深刻な性能劣化を示す。
テキスト指向視覚大言語モデル(VLLM)の高解像度シナリオにおける効率的なビジュアルトークン圧縮フレームワークを提案する。
提案手法は,テキスト指向ベンチマークにおいて,ベースラインよりも高い性能を保ちながら,計算オーバーヘッドを大幅に低減する。
論文 参考訳(メタデータ) (2025-02-22T16:05:33Z) - Rethinking Homogeneity of Vision and Text Tokens in Large Vision-and-Language Models [29.611769371733672]
本稿では,視覚とテキストの埋め込みを別々に処理する新しい手法であるDe Attention (D-Attn)を提案する。
D-Attn は視覚と視覚の自己注意を対角化し、計算を $mathcalO(|V|2)$から $mathcalO(|V|)$ for $|V|$ に還元する。
論文 参考訳(メタデータ) (2025-02-04T00:46:11Z) - VASparse: Towards Efficient Visual Hallucination Mitigation via Visual-Aware Token Sparsification [44.97217246897902]
LVLM(Large Vision-Language Models)は、視覚幻覚(VH)としても知られる、現実に忠実でない出力を生成する。
Visual-Aware Sparsification (VASparse) を用いた効率的なプラグアンドプレイデコーディングアルゴリズムを提案する。
VHを緩和し、競争力のある復号速度を維持しながら、VASparseは最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-01-11T14:09:34Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。