論文の概要: PCDVQ: Enhancing Vector Quantization for Large Language Models via Polar Coordinate Decoupling
- arxiv url: http://arxiv.org/abs/2506.05432v1
- Date: Thu, 05 Jun 2025 08:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.159489
- Title: PCDVQ: Enhancing Vector Quantization for Large Language Models via Polar Coordinate Decoupling
- Title(参考訳): PCDVQ:極座標デカップリングによる大規模言語モデルのベクトル量子化の強化
- Authors: Yuxuan Yue, Zukang Xu, Zhihang Yuan, Dawei Yang, Jianglong Wu, Liqiang Nie,
- Abstract要約: ベクトル量子化(VQ)は、非常に低ビット(2ビットでも)で精度の高いこの問題に対する一般的な解決策である。
本稿では,効率的なVQフレームワークであるPola Coordinate Decoupled Vector Quantization (PCDVQ)を提案する。
実験の結果、PCDVQは2ビットレベルのベースライン法を少なくとも1.5%ゼロショット精度で上回っていることがわかった。
- 参考スコア(独自算出の注目度): 44.933118023041715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) face significant challenges in edge deployment due to their massive parameter scale. Vector Quantization (VQ), a clustering-based quantization method, serves as a prevalent solution to this issue for its extremely low-bit (even at 2-bit) and considerable accuracy. Since a vector is a quantity in mathematics and physics that has both direction and magnitude, existing VQ works typically quantize them in a coupled manner. However, we find that direction exhibits significantly greater sensitivity to quantization compared to the magnitude. For instance, when separately clustering the directions and magnitudes of weight vectors in LLaMA-2-7B, the accuracy drop of zero-shot tasks are 46.5\% and 2.3\%, respectively. This gap even increases with the reduction of clustering centers. Further, Euclidean distance, a common metric to access vector similarities in current VQ works, places greater emphasis on reducing the magnitude error. This property is contrary to the above finding, unavoidably leading to larger quantization errors. To these ends, this paper proposes Polar Coordinate Decoupled Vector Quantization (PCDVQ), an effective and efficient VQ framework consisting of two key modules: 1) Polar Coordinate Decoupling (PCD), which transforms vectors into their polar coordinate representations and perform independent quantization of the direction and magnitude parameters.2) Distribution Aligned Codebook Construction (DACC), which optimizes the direction and magnitude codebooks in accordance with the source distribution. Experimental results show that PCDVQ outperforms baseline methods at 2-bit level by at least 1.5\% zero-shot accuracy, establishing a novel paradigm for accurate and highly compressed LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大規模なパラメータスケールのため、エッジデプロイメントにおいて重大な課題に直面します。
クラスタリングに基づく量子化法であるベクトル量子化(VQ)は、非常に低ビット(2ビットでも)で相当な精度でこの問題に対する一般的な解決策である。
ベクトルは、方向と大きさの両方を持つ数学と物理学の量であるため、既存のVQ作業は通常、それらを結合的に定量化する。
しかし、方向は大きさに比べて量子化に対する感度がかなり高いことが判明した。
例えば、LLaMA-2-7Bにおける重みベクトルの方向と大きさを別々にクラスタリングする場合、ゼロショットタスクの精度低下は46.5\%と2.3\%である。
このギャップはクラスタリングセンターの縮小とともに増大します。
さらに、現在のVQ作業におけるベクトル類似性にアクセスする共通の計量であるユークリッド距離は、大きさ誤差の低減に重点を置いている。
この性質は上記の発見とは逆であり、必然的により大きい量子化誤差につながる。
そこで本研究では,2つの鍵モジュールからなる効率よく効率的なVQフレームワークであるPola Coordinate Decoupled Vector Quantization (PCDVQ)を提案する。
1)極座標デカップリング(PCD)は、ベクトルをそれらの極座標表現に変換し、方向と大きさのパラメータの独立量子化を行う。2)分布調整コードブック構築(DACC)は、ソース分布に応じて方向と大きさのコードブックを最適化する。
実験結果から,PCDVQは2ビットレベルのベースライン法を少なくとも1.5倍のゼロショット精度で上回り,高精度かつ高度に圧縮されたLCMの新たなパラダイムを確立した。
関連論文リスト
- TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate [13.14434628836727]
ベクトル量子化は、その幾何学構造における歪みを最小限にしながら、高次元ユークリッドベクトルを定量化することを目的としている。
平均二乗誤差(MSE)と内積歪みに対処するTurboQuantを提案する。
オンラインアプリケーションに適したデータ公開アルゴリズムは、ほぼ最適な歪み率を達成する。
論文 参考訳(メタデータ) (2025-04-28T15:05:35Z) - PolarQuant: Leveraging Polar Transformation for Efficient Key Cache Quantization and Decoding Acceleration [26.972039704548184]
KVキャッシュを低ビット幅に量子化することは、計算コストを削減する効果的な方法である。
従来の手法では、外れ値による鍵ベクトルの定量化に苦労し、過剰なオーバーヘッドが発生する。
そこで我々はPolarQuantと呼ばれる新しい量子化手法を提案する。
論文 参考訳(メタデータ) (2025-02-01T18:59:03Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-08T13:37:34Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Sliced Wasserstein Estimation with Control Variates [47.18652387199418]
2つの確率測度の間のスライスされたワッサーシュタイン距離は、2つの1次元射影の間のワッサースタイン距離の予想として定義される。
予測の難易度のために、SW距離の値を推定するためにモンテカルロ積分が実行される。
様々な変種があるにもかかわらず、SW距離に対するモンテカルロ推定法を改善する事前の作業は行われていない。
論文 参考訳(メタデータ) (2023-04-30T06:03:17Z) - Quantum Gate Generation in Two-Level Open Quantum Systems by Coherent
and Incoherent Photons Found with Gradient Search [77.34726150561087]
我々は、非コヒーレント光子によって形成される環境を、非コヒーレント制御によるオープン量子系制御の資源とみなす。
我々は、ハミルトニアンにおけるコヒーレント制御と、時間依存デコヒーレンス率を誘導する散逸器における非コヒーレント制御を利用する。
論文 参考訳(メタデータ) (2023-02-28T07:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。