Fugu-MT 論文翻訳(概要): CommVQ: Commutative Vector Quantization for KV Cache Compression

論文の概要: CommVQ: Commutative Vector Quantization for KV Cache Compression

arxiv url: http://arxiv.org/abs/2506.18879v1
Date: Mon, 23 Jun 2025 17:50:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:37.108622
Title: CommVQ: Commutative Vector Quantization for KV Cache Compression
Title（参考訳）: CommVQ: KVキャッシュ圧縮のための圧縮ベクトル量子化
Authors: Junyan Li, Yang Zhang, Muhammad Yusuf Hassan, Talha Chafekar, Tianle Cai, Zhile Ren, Pengsheng Guo, Foroozan Karimzadeh, Colorado Reed, Chong Wang, Chuang Gan,
Abstract要約: 本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
参考スコア（独自算出の注目度）: 50.37946553931796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly used in applications requiring long context lengths, but the key-value (KV) cache often becomes a memory bottleneck on GPUs as context grows. To address this, we propose Commutative Vector Quantization (CommVQ) to significantly reduce memory usage for long-context LLM inference. We first introduce additive quantization with a lightweight encoder and codebook to compress the KV cache, which can be decoded via simple matrix multiplication. To further reduce computational costs during decoding, we design the codebook to be commutative with Rotary Position Embedding (RoPE) and train it using an Expectation-Maximization (EM) algorithm. This enables efficient integration of decoding into the self-attention mechanism. Our approach achieves high accuracy with additive quantization and low overhead via the RoPE-commutative codebook. Experiments on long-context benchmarks and GSM8K show that our method reduces FP16 KV cache size by 87.5% with 2-bit quantization, while outperforming state-of-the-art KV cache quantization methods. Notably, it enables 1-bit KV cache quantization with minimal accuracy loss, allowing a LLaMA-3.1 8B model to run with a 128K context length on a single RTX 4090 GPU. The source code is available at: https://github.com/UMass-Embodied-AGI/CommVQ.
Abstract（参考訳）: 大きな言語モデル(LLM)は、長いコンテキスト長を必要とするアプリケーションではますます使われていますが、キー値(KV)キャッシュは、コンテキストが大きくなるにつれてGPUのメモリボトルネックになります。そこで本研究では,長文LLM推論におけるメモリ使用量を大幅に削減するCommVQを提案する。まず,KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。復号化時の計算コストをさらに削減するため,ロータリー位置埋め込み (RoPE) と交換可能なコードブックを設計し,期待最大化 (EM) アルゴリズムを用いて学習する。これにより、デコーディングを自己認識機構に効率的に統合できる。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。長文ベンチマークとGSM8Kの実験により,FP16 KVのキャッシュサイズを87.5%削減し,2ビットの量子化を実現した。特に、1ビットのKVキャッシュの量子化を最小限の精度で実現し、1つのRTX 4090 GPU上で128Kコンテキスト長でLLaMA-3.1 8Bモデルを実行することができる。ソースコードはhttps://github.com/UMass-Embodied-AGI/CommVQ.comで入手できる。

関連論文リスト

SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs [44.41154292836592]
我々は,完全なKVキャッシュをオフロードし,各デコードステップでKVペアを動的にフェッチするSpeCacheを提案する。 LongBenchとNeedle-in-a-Haystackベンチマークの実験では、SpeCacheがVRAMの使用を効果的に削減していることが確認されている。
論文参考訳（メタデータ） (2025-03-20T14:01:56Z)
CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。 InternVLモデルのスループットは10倍に向上する。
論文参考訳（メタデータ） (2025-02-15T05:08:01Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
QJL: 1-Bit Quantized JL Transform for KV Cache Quantization with Zero Overhead [10.067037913589175]
LLMをシリアル化するには、KVキャッシュにキーバリューの埋め込みを格納する必要があるため、かなりのメモリを必要とする。従来の量子化法は、量子化定数を保存する必要があるため、大きなメモリオーバーヘッドに直面している。ジョンソン-リンデンシュトラウス変換とサインビット量子化を組み合わせた新しい量子化手法であるQJLを導入する。
論文参考訳（メタデータ） (2024-06-05T17:42:05Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。