論文の概要: PolarQuant: Leveraging Polar Transformation for Efficient Key Cache Quantization and Decoding Acceleration
- arxiv url: http://arxiv.org/abs/2502.00527v1
- Date: Sat, 01 Feb 2025 18:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:47.609505
- Title: PolarQuant: Leveraging Polar Transformation for Efficient Key Cache Quantization and Decoding Acceleration
- Title(参考訳): PolarQuant: 効率的なキーキャッシュ量子化とデコード高速化のための極変換の活用
- Authors: Songhao Wu, Ang Lv, Xiao Feng, Yufei Zhang, Xun Zhang, Guojun Yin, Wei Lin, Rui Yan,
- Abstract要約: KVキャッシュを低ビット幅に量子化することは、計算コストを削減する効果的な方法である。
従来の手法では、外れ値による鍵ベクトルの定量化に苦労し、過剰なオーバーヘッドが発生する。
そこで我々はPolarQuantと呼ばれる新しい量子化手法を提案する。
- 参考スコア(独自算出の注目度): 26.972039704548184
- License:
- Abstract: The KV cache in large language models is a dominant factor in memory usage, limiting their broader applicability. Quantizing the cache to lower bit widths is an effective way to reduce computational costs; however, previous methods struggle with quantizing key vectors due to outliers, resulting in excessive overhead. We propose a novel quantization approach called PolarQuant, which efficiently addresses the outlier challenge. We observe that outliers typically appear in only one of two dimensions, which are rotated together by a specific angle when rotary position embeddings are applied. When represented as two-dimensional vectors, these dimensions exhibit well-structured patterns, with radii and angles smoothly distributed in polar coordinates. This alleviates the challenge of outliers on per-channel quantization, making them well-suited for quantization. Thus, PolarQuant divides key vectors into groups of two-dimensional sub-vectors, encoding them as the corresponding quantized radius and the polar angle, rather than quantizing original key vectors directly. PolarQuant achieves the superior efficiency in KV cache quantization and accelerates the decoding process by turning the query-key inner product into a table lookup, all while maintaining the downstream performance of full-precision models.
- Abstract(参考訳): 大規模言語モデルにおけるKVキャッシュは、メモリ使用量の主要な要因であり、より広範な適用性を制限する。
キャッシュを低ビット幅に量子化することは計算コストを削減するのに有効な方法であるが、以前の手法では外れ値による鍵ベクトルの定量化に苦労しており、過剰なオーバーヘッドをもたらす。
そこで我々はPolarQuantと呼ばれる新しい量子化手法を提案する。
通常は2次元の1つにしか存在しないが、回転位置埋め込みを施すと、特定の角度で一緒に回転する。
2次元ベクトルとして表されるとき、これらの次元はよく構造化されたパターンを示し、半径と角度は極座標で滑らかに分布する。
これにより、チャネルごとの量子化における外れ値の難しさが軽減され、量子化に適している。
このように、PolarQuantは鍵ベクトルを2次元のサブベクトルの群に分割し、対応する量子化半径と極角として符号化する。
PolarQuantは、KVキャッシュの量子化において優れた効率を実現し、全精度モデルの下流性能を維持しながら、クエリキー内積をテーブルルックアップにすることでデコードプロセスを加速する。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Residual vector quantization for KV cache compression in large language model [2.3094645821058735]
KVキャッシュ圧縮法は主にデコード時のメモリ要求を減らすスカラー量子化技術に依存している。
本研究では,大規模言語モデル(LLM)におけるKVキャッシュの圧縮に,高忠実度音声圧縮に広く用いられている残差ベクトル量子化を適用した。
我々は指数移動平均を用いてコードブックを学習し、ベクトル量子化設定に通常使用される入力と出力のプロジェクションを含む他の学習可能なパラメータは存在しない。
論文 参考訳(メタデータ) (2024-10-21T07:20:41Z) - DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs [40.48697728884967]
大規模言語モデル(LLM)の量子化は、特に外部アクティベーションの存在により、大きな課題に直面している。
伝統的なアプローチは、比較的大きな大きさの全てのトークンをまたいだ活性化であるノーマル・アウトリエに主に対応している。
DuQuantは回転変換と置換変換を利用して、大量および正常な外れ値の両方をより効果的に緩和する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-03T18:27:44Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - GRAPE optimization for open quantum systems with time-dependent
decoherence rates driven by coherent and incoherent controls [77.34726150561087]
グラディエントアセンセントパルス工学(GRAPE)法は量子制御の最適化に広く用いられている。
我々は、コヒーレント制御と非コヒーレント制御の両方によって駆動されるオープン量子系の目的関数を最適化するために、GRAPE法を採用する。
状態-状態遷移問題に対する数値シミュレーションによりアルゴリズムの効率を実証する。
論文 参考訳(メタデータ) (2023-07-17T13:37:18Z) - Quantum Sparse Coding [5.130440339897477]
我々はスパース符号化のための量子インスピレーション付きアルゴリズムを開発した。
量子コンピュータとイジングマシンの出現は、より正確な推定につながる可能性がある。
我々はLightrの量子インスパイアされたデジタルプラットフォーム上でシミュレーションデータを用いて数値実験を行う。
論文 参考訳(メタデータ) (2022-09-08T13:00:30Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Efficient multi-qubit subspace rotations via topological quantum walks [1.0486921990935787]
選択された角度による部分空間の回転は、基本的な量子コンピューティングの演算である。
本稿では,位相量子ウォークを用いた高速かつ高忠実な計算手法を提案する。
この手順は、超伝導量子ビット、イオントラップ、リドベルク原子に星型接続で実装することができる。
論文 参考訳(メタデータ) (2021-11-12T02:10:56Z) - Automatic virtual voltage extraction of a 2x2 array of quantum dots with machine learning [0.7852714805965528]
量子ドットの2x2配列におけるクロスキャパシタンスの効果を緩和し,それを2xNおよびNxN配列に拡張する理論的枠組みを開発する。
提案手法は,QD配列におけるクロスキャパシタンス効果を緩和する完全自動化ツールを提供する。
論文 参考訳(メタデータ) (2020-12-07T13:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。