論文の概要: Towards Lossless Ultimate Vision Token Compression for VLMs
- arxiv url: http://arxiv.org/abs/2512.09010v1
- Date: Tue, 09 Dec 2025 15:40:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.268004
- Title: Towards Lossless Ultimate Vision Token Compression for VLMs
- Title(参考訳): VLMにおけるロスレス・アルティメット・トーケン圧縮に向けて
- Authors: Dehua Zheng, Mouxiao Huang, Borui Jiang, Hailin Hu, Xinghao Chen,
- Abstract要約: Lossless Ultimate Vision tokens Compression (LUVC)フレームワークが提案されている。
LUVCは、言語モデルの最終層で完全に除去されるまで、ビジュアルトークンを圧縮する。
実験の結果,LUVCは言語モデルにおいて2つの高速化推定を達成し,精度の劣化を無視できることがわかった。
- 参考スコア(独自算出の注目度): 11.485425012979052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual language models encounter challenges in computational efficiency and latency, primarily due to the substantial redundancy in the token representations of high-resolution images and videos. Current attention/similarity-based compression algorithms suffer from either position bias or class imbalance, leading to significant accuracy degradation. They also fail to generalize to shallow LLM layers, which exhibit weaker cross-modal interactions. To address this, we extend token compression to the visual encoder through an effective iterative merging scheme that is orthogonal in spatial axes to accelerate the computation across the entire VLM. Furthermoer, we integrate a spectrum pruning unit into LLM through an attention/similarity-free low-pass filter, which gradually prunes redundant visual tokens and is fully compatible to modern FlashAttention. On this basis, we propose Lossless Ultimate Vision tokens Compression (LUVC) framework. LUVC systematically compresses visual tokens until complete elimination at the final layer of LLM, so that the high-dimensional visual features are gradually fused into the multimodal queries. The experiments show that LUVC achieves a 2 speedup inference in language model with negligible accuracy degradation, and the training-free characteristic enables immediate deployment across multiple VLMs.
- Abstract(参考訳): ビジュアル言語モデルは、主に高解像度の画像やビデオのトークン表現にかなりの冗長性があるため、計算効率とレイテンシーの課題に直面する。
現在の注目/類似性に基づく圧縮アルゴリズムは位置バイアスまたはクラス不均衡に悩まされ、精度が著しく低下する。
また、浅いLLM層への一般化に失敗し、より弱い相互モーダル相互作用を示す。
これを解決するために,空間軸に直交する効果的な反復的マージ方式により,トークン圧縮を視覚エンコーダに拡張し,VLM全体の計算を高速化する。
さらに、注意/相似性のない低域通過フィルタによりスペクトルプルーニングユニットをLCMに統合し、冗長な視覚トークンを徐々に引き起こし、現代FlashAttentionと完全に互換性を持つ。
そこで我々は,Losless Ultimate Vision tokens Compression (LUVC) フレームワークを提案する。
LUVCは、LLMの最終層での完全除去まで視覚トークンを体系的に圧縮し、高次元の視覚特徴を徐々にマルチモーダルクエリに融合させる。
実験の結果,LUVCは言語モデルにおける2つの高速化推論を実現しており,トレーニング不要な特性は複数のVLMに即時展開可能であることがわかった。
関連論文リスト
- Parallel Vision Token Scheduling for Fast and Accurate Multimodal LMMs Inference [68.4758228017823]
ParVTSは、ビジュアルトークンを被写体および非オブジェクトグループに分割し、それらを並列に処理し、それらのセマンティクスを疑問トークンに転送し、非オブジェクトパスミッド推論を破棄する。
実験の結果、ParVTSは最大88.9%の視覚トークンを出力し、最小性能が低下し、1.77倍のスピードアップと70%のFLOPが削減された。
論文 参考訳(メタデータ) (2025-11-24T08:29:36Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - HoliTom: Holistic Token Merging for Fast Video Large Language Models [32.620504076794795]
ビデオ言語モデル(ビデオLLM)は、ビデオ理解において優れるが、冗長なビデオトークンによる計算不効率に直面する。
HoliTomは、新しいトレーニング不要な全体的トークンフレームワークである。
また,内部LLMトークンの類似性に基づくマージ手法を導入する。
論文 参考訳(メタデータ) (2025-05-27T15:28:45Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models [28.379533608574814]
トークン表現の最適化とビデオ大言語モデルの高速化を目的とした,トレーニング不要なトークン圧縮手法であるDyCokeを提案する。
DyCokeは、フレーム間で冗長トークンをマージすることによって、時間的冗長性を最小化するために、プラグインとプレイの時間的圧縮モジュールを組み込んでいる。
各デコードステップでクリティカルトークンを動的に保持することで、高品質な推論を保証する。
論文 参考訳(メタデータ) (2024-11-22T15:55:19Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。