論文の概要: From 16-Bit to 1-Bit: Visual KV Cache Quantization for Memory-Efficient Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2502.14882v1
- Date: Sat, 15 Feb 2025 05:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 02:51:34.045716
- Title: From 16-Bit to 1-Bit: Visual KV Cache Quantization for Memory-Efficient Multimodal Large Language Models
- Title(参考訳): 16ビットから1ビットへ: メモリ効率の良いマルチモーダル大言語モデルのためのビジュアルKVキャッシュ量子化
- Authors: Zeliang Zhang, Yifan Zhu, Susan Liang, Zhiyuan Wang, Jiani Liu, Haiting Lin, Mingjie Zhao, Chenliang Xu, Kun Wan, Wentian Zhao,
- Abstract要約: キーバリュー(KV)キャッシュは、計算のためのメモリのトレーディングによる推論効率を改善する。
既存のアプローチでは、KVキャッシュサイズを減らすために重要でないトークンをドロップすることに重点を置いている。
本稿では、メモリ消費を大幅に削減しつつ、すべての視覚トークンを保存できる、シンプルで効果的な視覚量子化戦略を提案する。
- 参考スコア(独自算出の注目度): 42.99400320918736
- License:
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable success across various applications, yet their computational overhead during deployment remains a critical challenge. While Key-Value (KV) caching improves inference efficiency by trading memory for computation, the growing memory footprint from storing extensive KV caches reduces throughput and limits long-term execution on devices with constrained GPU memory. Existing approaches primarily focus on dropping unimportant tokens to reduce the KV cache size, mitigating memory constraints at the cost of potential information loss. In contrast, we propose a simple yet effective visual quantization strategy that preserves all visual tokens while significantly reducing memory consumption. To achieve an extreme quantization ratio, i.e., 1-bit quantization, we propose group-specific quantization and quantile-based quantization approaches, motivated by the inherent patterns of the KV cache. Our method is plug-and-play, enabling seamless integration into various MLLMs to improve memory efficiency without architectural modifications. Extensive experiments demonstrate that our approach effectively reduces memory overhead while maintaining computational efficiency and preserving multimodal performance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は様々なアプリケーションで大きな成功を収めていますが、デプロイ時の計算オーバーヘッドは依然として重要な課題です。
キーバリュー(KV)キャッシュは、計算用メモリのトレーディングによる推論効率を改善するが、広範なKVキャッシュを格納するメモリフットプリントの増加は、スループットを低下させ、GPUメモリの制約のあるデバイス上での長期実行を制限する。
既存のアプローチでは、KVキャッシュサイズを減らすために重要でないトークンをドロップすることに重点を置いており、潜在的な情報損失のコストでメモリ制約を軽減している。
対照的に、メモリ消費を大幅に削減しつつ、全ての視覚トークンを保存する、シンプルで効果的な視覚量子化戦略を提案する。
極端量子化比、すなわち1ビット量子化を達成するために、KVキャッシュ固有のパターンによって動機付けられたグループ固有量子化と量子化に基づく量子化アプローチを提案する。
本手法はプラグ・アンド・プレイであり,各種MLLMへのシームレスな統合により,アーキテクチャ変更を伴わずにメモリ効率を向上する。
大規模な実験により,計算効率を保ち,マルチモーダル性能を保ちながら,メモリオーバーヘッドを効果的に低減できることが示された。
関連論文リスト
- CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - XKV: Personalized KV Cache Memory Reduction for Long-Context LLM Inference [9.65524177141491]
大規模言語モデル(LLM)推論は出力トークンを1つずつ生成し、多くの冗長な計算に繋がる。
KV-Cacheフレームワークは時間と空間の複雑さを妥協する。
既存の研究では、推論精度に重要でないキャッシュデータの一部を削除することで、メモリ消費を減らすことができる。
各レイヤのキャッシュサイズをパーソナライズしてカスタマイズすることで,メモリの大幅な削減が期待できることを示す。
論文 参考訳(メタデータ) (2024-12-08T11:32:08Z) - A Method for Building Large Language Models with Predefined KV Cache Capacity [11.710667043543545]
境界キャッシュ変換器(BCT)は、従来のKVキャッシュの過剰なメモリ消費問題に対処する。
キー値ベクトル列を動的に更新することにより、BCTは限られたキャッシュ容量内で効率的な推論を実現する。
実験の結果,BCTは推論品質を維持しながらメモリ使用量を大幅に削減することがわかった。
論文 参考訳(メタデータ) (2024-11-24T11:30:00Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。