論文の概要: ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning
- arxiv url: http://arxiv.org/abs/2601.17818v1
- Date: Sun, 25 Jan 2026 12:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.414605
- Title: ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning
- Title(参考訳): ViTCoP:視覚的およびテキスト的協調処理による大規模視覚言語モデルの高速化
- Authors: Wen Luo, Peng Chen, Xiaotao Huang, LiQun Huang,
- Abstract要約: 大きなビジョンランゲージモデルは、視覚トークンの冗長性のために高い計算コストを発生させる。
視覚エンコーダの冗長性フィルタリングと大規模言語モデル内の段階的協調処理を組み合わせた視覚的・テキスト的協調処理フレームワーク(ViTCoP)を提案する。
- 参考スコア(独自算出の注目度): 8.933549837045932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) incur high computational costs due to significant redundancy in their visual tokens. To effectively reduce this cost, researchers have proposed various visual token pruning methods. However, existing methods are generally limited, either losing critical visual information prematurely due to pruning in the vision encoder, or leading to information redundancy among the selected tokens due to pruning in the Large Language Models (LLMs). To address these challenges, we propose a Visual and Textual Semantic Collaborative Pruning framework (ViTCoP) that combines redundancy filtering in the vision encoder with step-wise co-pruning within the LLM based on its hierarchical characteristics, to efficiently preserve critical and informationally diverse visual tokens. Meanwhile, to ensure compatibility with acceleration techniques like FlashAttention, we introduce the L2 norm of K-vectors as the token saliency metric in the LLM. Extensive experiments on various Large Vision-Language Models demonstrate that ViTCoP not only achieves state-of-the-art performance surpassing existing methods on both image and video understanding tasks, but also significantly reduces model inference latency and GPU memory consumption. Notably, its performance advantage over other methods becomes even more pronounced under extreme pruning rates.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚トークンの冗長性が高いため、計算コストが高い。
このコストを効果的に削減するために、研究者は様々な視覚的トークンプルーニング法を提案している。
しかし、既存の手法は一般的に制限されており、視覚エンコーダのプルーニングによって重要な視覚情報を早期に失うか、Large Language Models (LLM) のプルーニングによって選択されたトークン間で情報冗長性をもたらすかのいずれかである。
これらの課題に対処するために,視覚エンコーダの冗長性フィルタリングとLLM内のステップワイズ共プルーニングを組み合わせた視覚的およびテキスト的セマンティック・コラボレーション・プルーニング・フレームワーク(ViTCoP)を提案する。
一方、FlashAttentionのようなアクセラレーション技術との互換性を確保するため、LLMのトークン・サリエンシ・メトリックとして、KベクトルのL2ノルムを導入する。
様々なLarge Vision-Language Modelの大規模な実験により、ViTCoPは画像理解タスクとビデオ理解タスクの両方で既存の手法を上回る最先端のパフォーマンスを達成するだけでなく、モデル推論遅延とGPUメモリ消費を大幅に削減することを示した。
特に、他の手法に対する性能上の優位性は、極端な刈り取り率でさらに顕著になる。
関連論文リスト
- CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。