論文の概要: CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.17243v2
- Date: Sat, 30 Aug 2025 07:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 12:29:36.774827
- Title: CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models
- Title(参考訳): CoViPAL:大規模視覚言語モデルのためのレイヤワイズ・コンテクスト対応ビジュアルトーケンプルーニング
- Authors: Zicong Tang, Ziyang Ma, Suqing Wang, Zuchao Li, Lefei Zhang, Hai Zhao, Yun Li, Qianren Wang,
- Abstract要約: LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
- 参考スコア(独自算出の注目度): 75.88232735646018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) process multimodal inputs consisting of text tokens and vision tokens extracted from images or videos. Due to the rich visual information, a single image can generate thousands of vision tokens, leading to high computational costs during the prefilling stage and significant memory overhead during decoding. Existing methods attempt to prune redundant vision tokens, revealing substantial redundancy in visual representations. However, these methods often struggle in shallow layers due to the lack of sufficient contextual information. We argue that many visual tokens are inherently redundant even in shallow layers and can be safely and effectively pruned with appropriate contextual signals. In this work, we propose CoViPAL, a layer-wise contextualized visual token pruning method that employs a Plug-and-Play Pruning Module (PPM) to predict and remove redundant vision tokens before they are processed by the LVLM. The PPM is lightweight, model-agnostic, and operates independently of the LVLM architecture, ensuring seamless integration with various models. Extensive experiments on multiple benchmarks demonstrate that CoViPAL outperforms training-free pruning methods under equal token budgets and surpasses training-based methods with comparable supervision. CoViPAL offers a scalable and efficient solution to improve inference efficiency in LVLMs without compromising accuracy.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
リッチな視覚情報のために、単一の画像は数千の視覚トークンを生成することができ、プリフィル段階で高い計算コストとデコード時のメモリオーバーヘッドをもたらす。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
しかし、これらの手法は、十分な文脈情報がないため、しばしば浅い層で苦労する。
多くの視覚トークンは、浅い層でも本質的に冗長であり、適切なコンテキスト信号で安全かつ効果的に切断できると主張している。
本研究では,LVLM で処理される前に冗長な視覚トークンを予測・削除するために Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法である CoViPAL を提案する。
PPMは軽量でモデルに依存しず、LVLMアーキテクチャとは独立して動作し、様々なモデルとのシームレスな統合を保証する。
複数のベンチマークでの大規模な実験により、CoViPALは同等のトークン予算下でトレーニングフリーのプルーニング手法を上回り、同等の監督下でトレーニングベースの手法を超越していることが示された。
CoViPALは、精度を損なうことなくLVLMの推論効率を改善するスケーラブルで効率的なソリューションを提供する。
関連論文リスト
- Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs [8.97780713904412]
本稿では、視覚トークンを参照してLVLM(Large Vision-Language Models)におけるテキスト生成プロセスのガイドを行う、シンプルで効果的な復号法であるReVisiTを紹介する。
提案手法は,テキストトークン分布空間に投影し,制約付き発散最小化により,各復号ステップにおいて最も関連性の高い視覚トークンを動的に選択することにより,視覚トークン内に埋め込まれた意味情報を活用する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation [10.614327633823462]
大規模視覚言語モデル(LVLM)は、推論セグメンテーションタスクの実行において視覚基盤モデルを導くために広く採用されている。
本研究では,LVLMに基づく推論セグメンテーションタスクに特化して設計された,新しい学習自由な視覚トークンプルーニング手法であるLVLM_CSPを提案する。
論文 参考訳(メタデータ) (2025-04-15T04:27:15Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。