論文の概要: LightVLM: Acceleraing Large Multimodal Models with Pyramid Token Merging and KV Cache Compression
- arxiv url: http://arxiv.org/abs/2509.00419v1
- Date: Sat, 30 Aug 2025 08:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.224142
- Title: LightVLM: Acceleraing Large Multimodal Models with Pyramid Token Merging and KV Cache Compression
- Title(参考訳): LightVLM: ピラミッドトケマージとKVキャッシュ圧縮による大規模マルチモーダルモデルの高速化
- Authors: Lianyu Hu, Fanhua Shang, Wei Feng, Liang Wan,
- Abstract要約: トレーニング不要な方法で推論プロセスを大幅に高速化する,シンプルだが効果的な方法であるLightVLMを導入する。
視覚言語モデルの推論手順は,符号化と復号という2つの段階に分けられる。
実験の結果、LightVLMは35%の画像トークンしか保存していない場合、100%の性能を維持することができた。
- 参考スコア(独自算出の注目度): 33.64434029721401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce LightVLM, a simple but effective method that can be seamlessly deployed upon existing Vision-Language Models (VLMs) to greatly accelerate the inference process in a training-free manner. We divide the inference procedure of VLMs into two stages, i.e., encoding and decoding, and propose to simultaneously accelerate VLMs in both stages to largely improve model efficiency. During encoding, we propose pyramid token merging to reduce tokens of different LLM layers in a hierarchical manner by finally only keeping a few dominant tokens to achieve high efficiency. During decoding, aimed at reducing the high latency of outputting long sequences, we propose KV Cache compression to remove unnecessary caches to increase the network throughput. Experimental results show that LightVLM successfully retains 100% performance when only preserving 35% image tokens, and maintains around 98% performance when keeping only 3% image tokens. LightVLM could 2.02$\times$ the network throughput and reduce the prefilling time by 3.65$\times$. LightVLM also makes large VLMs faster again by enabling a heavy model (e.g., InternVL2.5 26B) to infer faster than significantly smaller models (e.g., InternVL2.5 8B), hopefully facilitating the real-world deployment. When generating long text sequences (e.g., 4096 tokens), LightVLM could reduce the inference time by 3.21$\times$, largely outperforming existing methods.
- Abstract(参考訳): 本稿では,既存のビジョンランゲージモデル(VLM)にシームレスに展開可能な,シンプルだが効果的な方法であるLightVLMを導入し,推論プロセスを大幅に高速化する。
本稿では,VLMの推論手順を符号化と復号の2段階に分割し,モデル効率を大幅に向上させるため,両段階のVLMの同時高速化を提案する。
符号化の過程では,LLM層間のトークンを階層的に削減するピラミッドトークンマージを提案する。
長いシーケンスを出力する際の遅延の低減を目的とした復号処理において,ネットワークスループットを向上させるために不要なキャッシュを除去するKVキャッシュ圧縮を提案する。
実験結果から,LightVLMは35%のイメージトークンしか保存せず,3%のイメージトークンしか保持していない場合,約98%のパフォーマンスを維持することができた。
LightVLMは、ネットワークスループットを2.02$\times$にし、プリフィルタイムを3.65$\times$に削減できる。
LightVLMはまた、重いモデル(例: InternVL2.5 26B)をはるかに小さなモデル(例: InternVL2.5 8B)よりも高速に推し進めることによって、大きなVLMを再び高速にし、現実世界の展開を容易にすることを願っている。
長いテキストシーケンス(例:4096トークン)を生成する場合、LightVLMは推論時間を3.21$\times$に削減し、既存のメソッドよりも大幅に向上した。
関連論文リスト
- Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - FastVLM: Efficient Vision Encoding for Vision Language Models [22.41836943083826]
我々は,レイテンシ,モデルサイズ,精度のトレードオフを最適化したモデルであるFastVLMを紹介する。
FastVLMには、より少ないトークンを出力するように設計された新しいハイブリッドビジョンエンコーダであるFastViTHDが組み込まれている。
LLaVA-1.5では、FastVLMは3.2$times$改善された。
論文 参考訳(メタデータ) (2024-12-17T20:09:55Z) - iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models [24.0346607116299]
iLLaVAは、現在のLVLM(Large Vision-Language Models)にシームレスにデプロイできるシンプルな方法である。
iLLaVAは、冗長トークンを正確で高速なアルゴリズムで発見し、徐々にマージすることでこれを達成している。
単一イメージ、マルチイメージ、ビデオを含むさまざまな領域にわたるタスクにおいて、iLLaVAは一貫して有望な効率で強力な一般化性を示す。
論文 参考訳(メタデータ) (2024-12-09T07:22:19Z) - VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。
キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。
既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である
VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文 参考訳(メタデータ) (2024-10-29T20:04:34Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - MiniVLM: A Smaller and Faster Vision-Language Model [76.35880443015493]
MiniVLMは視覚特徴抽出器と視覚言語融合モジュールの2つのモジュールで構成されている。
MiniVLMはモデルサイズを73%$、推論時間コストを94%$に削減する。
論文 参考訳(メタデータ) (2020-12-13T03:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。