論文の概要: IPCV: Information-Preserving Compression for MLLM Visual Encoders
- arxiv url: http://arxiv.org/abs/2512.18747v1
- Date: Sun, 21 Dec 2025 14:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.487569
- Title: IPCV: Information-Preserving Compression for MLLM Visual Encoders
- Title(参考訳): IPCV:MLLMビジュアルエンコーダのための情報保存圧縮
- Authors: Yuan Chen, Zichen Wen, Yuzhou Wu, Xuyang Liu, Shuang Chen, Junpeng Ma, Weijia Li, Conghui He, Linfeng Zhang,
- Abstract要約: IPCVは、MLLMビジュアルエンコーダのためのトレーニング不要の情報保存圧縮フレームワークである。
トークンプルーニングによる負の影響を緩和するために,注意安定化(AS)を導入する。
IPCVはエンドツーエンドの計算を大幅に削減し、最先端のトレーニング不要なトークン圧縮手法より優れている。
- 参考スコア(独自算出の注目度): 44.76073540999133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) deliver strong vision-language performance but at high computational cost, driven by numerous visual tokens processed by the Vision Transformer (ViT) encoder. Existing token pruning strategies are inadequate: LLM-stage token pruning overlooks the ViT's overhead, while conventional ViT token pruning, without language guidance, risks discarding textually critical visual cues and introduces feature distortions amplified by the ViT's bidirectional attention. To meet these challenges, we propose IPCV, a training-free, information-preserving compression framework for MLLM visual encoders. IPCV enables aggressive token pruning inside the ViT via Neighbor-Guided Reconstruction (NGR) that temporarily reconstructs pruned tokens to participate in attention with minimal overhead, then fully restores them before passing to the LLM. Besides, we introduce Attention Stabilization (AS) to further alleviate the negative influence from token pruning by approximating the K/V of pruned tokens. It can be directly applied to previous LLM-side token pruning methods to enhance their performance. Extensive experiments show that IPCV substantially reduces end-to-end computation and outperforms state-of-the-art training-free token compression methods across diverse image and video benchmarks. Our code is available at https://github.com/Perkzi/IPCV.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、ヴィジュアルトランスフォーマー(ViT)エンコーダによって処理される多数の視覚トークンによって駆動される、強力な視覚言語性能を提供するが、計算コストが高い。
既存のトークンプルーニング戦略は不十分である: LLMステージトークンプルーニングはViTのオーバーヘッドを見落とし、従来のViTトークンプルーニングは言語指導なしでテキストクリティカルな視覚的手がかりを捨て、ViTの双方向の注意によって増幅された特徴歪みを導入する。
これらの課題に対処するため、我々は、MLLMビジュアルエンコーダのためのトレーニング不要な情報保存圧縮フレームワークであるIPCVを提案する。
IPCVは、Nighbor-Guided Reconstruction (NGR)を介してViT内部で積極的なトークンのプルーニングを可能にし、プルーニングトークンを一時的に再構築して最小限のオーバーヘッドで注意を払って、LLMに渡す前に完全に復元する。
さらに、留置トークンのK/Vを近似することにより、トークンプルーニングによる負の影響を緩和するために、注意安定化(AS)を導入する。
従来のLCM側のトークンプルーニング法に直接適用することで、その性能を向上させることができる。
大規模な実験により、IPCVはエンド・ツー・エンドの計算を大幅に削減し、様々な画像とビデオのベンチマークで最先端のトレーニング不要なトークン圧縮手法より優れていることが示された。
私たちのコードはhttps://github.com/Perkzi/IPCV.comで利用可能です。
関連論文リスト
- Towards Lossless Ultimate Vision Token Compression for VLMs [11.485425012979052]
Lossless Ultimate Vision tokens Compression (LUVC)フレームワークが提案されている。
LUVCは、言語モデルの最終層で完全に除去されるまで、ビジュアルトークンを圧縮する。
実験の結果,LUVCは言語モデルにおいて2つの高速化推定を達成し,精度の劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2025-12-09T15:40:13Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。