Fugu-MT 論文翻訳(概要): Residual vector quantization for KV cache compression in large language model

論文の概要: Residual vector quantization for KV cache compression in large language model

arxiv url: http://arxiv.org/abs/2410.15704v1
Date: Mon, 21 Oct 2024 07:20:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.291527
Title: Residual vector quantization for KV cache compression in large language model
Title（参考訳）: 大規模言語モデルにおけるKVキャッシュ圧縮のための残留ベクトル量子化
Authors: Ankur Kumar,
Abstract要約: KVキャッシュ圧縮法は主にデコード時のメモリ要求を減らすスカラー量子化技術に依存している。本研究では,大規模言語モデル(LLM)におけるKVキャッシュの圧縮に,高忠実度音声圧縮に広く用いられている残差ベクトル量子化を適用した。我々は指数移動平均を用いてコードブックを学習し、ベクトル量子化設定に通常使用される入力と出力のプロジェクションを含む他の学習可能なパラメータは存在しない。
参考スコア（独自算出の注目度）: 2.3094645821058735
License: http://creativecommons.org/licenses/by/4.0/
Abstract: KV cache compression methods have mainly relied on scalar quantization techniques to reduce the memory requirements during decoding. In this work, we apply residual vector quantization, which has been widely used for high fidelity audio compression, to compress KV cache in large language models (LLM). We adapt the standard recipe with minimal changes to compress the output of any key or value projection matrix in a pretrained LLM: we scale the vector by its standard deviation, divide channels into groups and then quantize each group with the same residual vector quantizer. We learn the codebook using exponential moving average and there are no other learnable parameters including the input and output projections normally used in a vector quantization set up. We find that a residual depth of 8 recovers most of the performance of the unquantized model. We also find that grouping non-contiguous channels together works better than grouping contiguous channels for compressing key matrix and the method further benefits from a light weight finetuning of LLM together with the quantization. Overall, the proposed technique is competitive with existing quantization methods while being much simpler and results in 5.5x compression compared to half precision.
Abstract（参考訳）: KVキャッシュ圧縮法は主にデコード時のメモリ要求を減らすスカラー量子化技術に依存している。本研究では,大規模言語モデル(LLM)におけるKVキャッシュの圧縮に,高忠実度オーディオ圧縮に広く用いられている残差ベクトル量子化を適用した。我々は標準レシピを最小限の変更で適応させ、事前訓練されたLCMにおける任意のキーまたは値投影行列の出力を圧縮する: ベクトルを標準偏差でスケールし、チャネルをグループに分割し、同じ残留ベクトル量子化器で各グループを定量化する。我々は指数移動平均を用いてコードブックを学習し、ベクトル量子化設定に通常使用される入力と出力のプロジェクションを含む他の学習可能なパラメータは存在しない。その結果,残差深度8は,未定量モデルの性能の大部分を回復させることがわかった。また、非連続チャネルをグループ化することで、鍵行列を圧縮するための連続チャネルをグループ化するよりもうまく機能し、この手法はLLMの軽量微調整と量子化によってさらに恩恵を受ける。全体として、提案手法は既存の量子化法と競合するが、より単純であり、半精度に比べて5.5倍の圧縮が得られる。

関連論文リスト

Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文参考訳（メタデータ） (2025-10-23T20:19:48Z)
Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment [15.802372921412198]
我々は,大言語モデル (LLM) の重み付けを,校正データはほとんどあるいは全く使わずに定量化する,PTQ(height-only post-training Quantization)について検討した。まず、与えられたビット予算下でのガウス化重みに対する情報理論的に最適なビット割り当てを導出し、ガウスの歪み率境界に近づく微細な分数ビット量子化器が、ほぼ最適量子化性能を達成するために不可欠であることを明らかにした。
論文参考訳（メタデータ） (2025-09-24T15:10:44Z)
CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文参考訳（メタデータ） (2025-06-23T17:50:11Z)
TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate [13.14434628836727]
ベクトル量子化は、その幾何学構造における歪みを最小限にしながら、高次元ユークリッドベクトルを定量化することを目的としている。平均二乗誤差(MSE)と内積歪みに対処するTurboQuantを提案する。オンラインアプリケーションに適したデータ公開アルゴリズムは、ほぼ最適な歪み率を達成する。
論文参考訳（メタデータ） (2025-04-28T15:05:35Z)
GPTQv2: Efficient Finetuning-Free Quantization for Asymmetric Calibration [21.474315621757594]
GPTQv2は、大規模トランスアーキテクチャを圧縮するための微調整不要な量子化法である。 1つのGPU上で405B言語変換器とEVA-02を量子化し、画像ネットの精度を90%向上させる。
論文参考訳（メタデータ） (2025-04-03T15:30:43Z)
More for Keys, Less for Values: Adaptive KV Cache Quantization [59.708443710731146]
本稿では,大規模言語モデルにおけるキー値キャッシュを適応的に圧縮する情報認識量子化フレームワークを提案する。鍵行列が常に高いノルム値を示し、値行列よりも量子化に敏感であることを示す。我々は、鍵のビット幅を多く割り当て、値のビット幅を小さくする混合精度量子化戦略KV-AdaQuantを提案する。
論文参考訳（メタデータ） (2025-02-20T22:24:27Z)
PolarQuant: Leveraging Polar Transformation for Efficient Key Cache Quantization and Decoding Acceleration [26.972039704548184]
KVキャッシュを低ビット幅に量子化することは、計算コストを削減する効果的な方法である。従来の手法では、外れ値による鍵ベクトルの定量化に苦労し、過剰なオーバーヘッドが発生する。そこで我々はPolarQuantと呼ばれる新しい量子化手法を提案する。
論文参考訳（メタデータ） (2025-02-01T18:59:03Z)
AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations [36.63586957377984]
大規模な言語モデルは、しばしばかなりのストレージスペースを必要とする。パラメータ数が膨大であるため、これらのモデルは大きなストレージスペースを必要とすることが多い。 1つの研究方向は、浮動小数点数の整数置換を用いてモデルを圧縮することを提案する。
論文参考訳（メタデータ） (2024-10-17T04:35:57Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。 LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
QJL: 1-Bit Quantized JL Transform for KV Cache Quantization with Zero Overhead [10.067037913589175]
LLMをシリアル化するには、KVキャッシュにキーバリューの埋め込みを格納する必要があるため、かなりのメモリを必要とする。従来の量子化法は、量子化定数を保存する必要があるため、大きなメモリオーバーヘッドに直面している。ジョンソン-リンデンシュトラウス変換とサインビット量子化を組み合わせた新しい量子化手法であるQJLを導入する。
論文参考訳（メタデータ） (2024-06-05T17:42:05Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文参考訳（メタデータ） (2024-04-15T12:38:46Z)
Approaching Rate-Distortion Limits in Neural Compression with Lattice Transform Coding [33.377272636443344]
ニューラル圧縮設計では、ソースを潜在ベクトルに変換し、それを整数に丸め、エントロピーを符号化する。我々は、i.d.配列に対して非常に最適であり、実際に、元のソースシーケンスのスカラー量子化を常に回復することを示した。遅延空間におけるスカラー量子化の代わりに格子量子化を用いることにより、格子変換符号化(LTC)が様々な次元で最適なベクトル量子化を回復できることを実証する。
論文参考訳（メタデータ） (2024-03-12T05:09:25Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。 OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文参考訳（メタデータ） (2022-05-23T09:05:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。