論文の概要: Enhancing Large Multimodal Models with Adaptive Sparsity and KV Cache Compression
- arxiv url: http://arxiv.org/abs/2507.20613v1
- Date: Mon, 28 Jul 2025 08:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.978862
- Title: Enhancing Large Multimodal Models with Adaptive Sparsity and KV Cache Compression
- Title(参考訳): 適応スパーシリティとKVキャッシュ圧縮による大規模マルチモーダルモデルの強化
- Authors: Te Zhang, Yuheng Li, Junxiang Wang, Lujun Li,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、視覚エンコーダと広範な言語モデルを統合することで、堅牢な推論機能を実現している。
エッジデバイスへの展開のためにLMMを圧縮することは、依然として重要な課題である。
本稿では,LMM効率を向上させるために,空間性とKVキャッシュ圧縮を最適化する適応探索アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.87033491172396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) have advanced significantly by integrating visual encoders with extensive language models, enabling robust reasoning capabilities. However, compressing LMMs for deployment on edge devices remains a critical challenge. In this work, we propose an adaptive search algorithm that optimizes sparsity and KV cache compression to enhance LMM efficiency. Utilizing the Tree-structured Parzen Estimator, our method dynamically adjusts pruning ratios and KV cache quantization bandwidth across different LMM layers, using model performance as the optimization objective. This approach uniquely combines pruning with key-value cache quantization and incorporates a fast pruning technique that eliminates the need for additional fine-tuning or weight adjustments, achieving efficient compression without compromising accuracy. Comprehensive evaluations on benchmark datasets, including LLaVA-1.5 7B and 13B, demonstrate our method superiority over state-of-the-art techniques such as SparseGPT and Wanda across various compression levels. Notably, our framework automatic allocation of KV cache compression resources sets a new standard in LMM optimization, delivering memory efficiency without sacrificing much performance.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、視覚エンコーダと広範な言語モデルを統合することで、堅牢な推論機能を実現している。
しかし、エッジデバイスへの展開のためにLMMを圧縮することは、依然として重要な課題である。
そこで本研究では,LMM効率を向上させるために,空間性とKVキャッシュ圧縮を最適化する適応探索アルゴリズムを提案する。
本手法では,木構造パーゼン推定器を用いて,異なるLMM層間のプルーニング比とKVキャッシュ量子化帯域幅を動的に調整し,モデル性能を最適化の目的とする。
このアプローチは、プルーニングとキー値キャッシュの量子化を一意に組み合わせ、高速プルーニング技術を導入し、さらなる微調整や重量調整の必要性を排除し、精度を損なうことなく効率的な圧縮を実現する。
LLaVA-1.5 7B や 13B を含むベンチマークデータセットの総合評価では,SparseGPT や Wanda などの最先端技術よりも,様々な圧縮レベルにおいて,本手法の方が優れていることが示された。
特に,我々のKVキャッシュ圧縮リソースの自動割り当ては,LMM最適化における新しい標準を設定し,性能を犠牲にすることなくメモリ効率を向上する。
関連論文リスト
- DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。