Fugu-MT 論文翻訳(概要): PolarQuant: Quantizing KV Caches with Polar Transformation

論文の概要: PolarQuant: Quantizing KV Caches with Polar Transformation

arxiv url: http://arxiv.org/abs/2502.02617v1
Date: Tue, 04 Feb 2025 08:52:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:50.805211
Title: PolarQuant: Quantizing KV Caches with Polar Transformation
Title（参考訳）: PolarQuant:極変態によるKVキャッシュの量子化
Authors: Insu Han, Praneeth Kacham, Amin Karbasi, Vahab Mirrokni, Amir Zandieh,
Abstract要約: 大きな言語モデル(LLM)はキーバリューの埋め込みをKVキャッシュに格納するために大きなメモリを必要とする。これらのKV埋め込みの量子化は、メモリ消費を減らすための一般的な手法である。この研究は、ランダムプレコンディショニングと極変換を用いた新しい量子化法であるPolarQuantを紹介する。
参考スコア（独自算出の注目度）: 46.38603611763045
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) require significant memory to store Key-Value (KV) embeddings in their KV cache, especially when handling long-range contexts. Quantization of these KV embeddings is a common technique to reduce memory consumption. This work introduces PolarQuant, a novel quantization method employing random preconditioning and polar transformation. Our method transforms the KV embeddings into polar coordinates using an efficient recursive algorithm and then quantizes resulting angles. Our key insight is that, after random preconditioning, the angles in the polar representation exhibit a tightly bounded and highly concentrated distribution with an analytically computable form. This nice distribution eliminates the need for explicit normalization, a step required by traditional quantization methods which introduces significant memory overhead because quantization parameters (e.g., zero point and scale) must be stored in full precision per each data block. PolarQuant bypasses this normalization step, enabling substantial memory savings. The long-context evaluation demonstrates that PolarQuant compresses the KV cache by over x4.2 while achieving the best quality scores compared to the state-of-the-art methods.
Abstract（参考訳）: 大きな言語モデル(LLM)はキーバリュー(KV)埋め込みをKVキャッシュに格納するために大きなメモリを必要とする。これらのKV埋め込みの量子化は、メモリ消費を減らすための一般的な手法である。この研究は、ランダムプレコンディショニングと極変換を用いた新しい量子化法であるPolarQuantを紹介する。提案手法は,KV埋め込みを効率的な再帰アルゴリズムを用いて極座標に変換し,その結果の角度を定量化する。我々の重要な洞察は、ランダムなプレコンディショニングの後、極表象の角度は、解析的に計算可能な形式で厳密な有界かつ高度に集中した分布を示すことである。これは、量子化パラメータ(例えば、ゼロ点、スケール)を各データブロックごとに完全な精度で保存する必要があるため、メモリオーバーヘッドが大幅に増加する従来の量子化メソッドによって要求されるステップである。 PolarQuantはこの正規化ステップをバイパスし、かなりのメモリ節約を可能にする。長いコンテキスト評価は、PolarQuantがKVキャッシュをx4.2以上圧縮し、最先端の方法と比較して最高の品質のスコアを達成していることを示している。

関連論文リスト

TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering [10.427881558469442]
量子化精度の高いKVキャッシュ圧縮のためのトレーニング不要なレシピであるTaDAを紹介する。提案手法は,様々なコンテキスト長をサポートする複数のモデルに対して,大幅な精度向上を実現する。本手法は,言語モデルにおけるスケーラブルで高性能な推論手法である。
論文参考訳（メタデータ） (2025-06-05T05:23:38Z)
NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics [6.048883141729117]
大規模言語モデル(LLM)は、幅広いタスクにまたがる卓越した習熟度を示してきた。 LLMは、スループットを高めるためにより大きなバッチサイズを必要とすることや、タスク要求を満たすために長いコンテキスト長を必要とすることも多い。
論文参考訳（メタデータ） (2025-05-22T04:23:19Z)
PolarQuant: Leveraging Polar Transformation for Efficient Key Cache Quantization and Decoding Acceleration [26.972039704548184]
KVキャッシュを低ビット幅に量子化することは、計算コストを削減する効果的な方法である。従来の手法では、外れ値による鍵ベクトルの定量化に苦労し、過剰なオーバーヘッドが発生する。そこで我々はPolarQuantと呼ばれる新しい量子化手法を提案する。
論文参考訳（メタデータ） (2025-02-01T18:59:03Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
KVプルーニングやKV量子化を含むKV圧縮法は、トークンまたは精度寸法に重点を置いている。量子化プルーニング(quantized pruning)により,KVキャッシュにより多くのトークンを格納することで,LLMの長文性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
Residual vector quantization for KV cache compression in large language model [2.3094645821058735]
KVキャッシュ圧縮法は主にデコード時のメモリ要求を減らすスカラー量子化技術に依存している。本研究では,大規模言語モデル(LLM)におけるKVキャッシュの圧縮に,高忠実度音声圧縮に広く用いられている残差ベクトル量子化を適用した。我々は指数移動平均を用いてコードブックを学習し、ベクトル量子化設定に通常使用される入力と出力のプロジェクションを含む他の学習可能なパラメータは存在しない。
論文参考訳（メタデータ） (2024-10-21T07:20:41Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
QJL: 1-Bit Quantized JL Transform for KV Cache Quantization with Zero Overhead [10.067037913589175]
LLMをシリアル化するには、KVキャッシュにキーバリューの埋め込みを格納する必要があるため、かなりのメモリを必要とする。従来の量子化法は、量子化定数を保存する必要があるため、大きなメモリオーバーヘッドに直面している。ジョンソン-リンデンシュトラウス変換とサインビット量子化を組み合わせた新しい量子化手法であるQJLを導入する。
論文参考訳（メタデータ） (2024-06-05T17:42:05Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。