論文の概要: PolarQuant: Optimal Gaussian Weight Quantization via Hadamard Rotation for LLM Compression
- arxiv url: http://arxiv.org/abs/2603.29078v1
- Date: Mon, 30 Mar 2026 23:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.947887
- Title: PolarQuant: Optimal Gaussian Weight Quantization via Hadamard Rotation for LLM Compression
- Title(参考訳): PolarQuant: LLM圧縮のためのアダマール回転による最適ガウス量量子化
- Authors: Caio Vicentino,
- Abstract要約: PolarQuantは、大規模言語モデルのトレーニング後の重み量子化手法である。
ニューラルネットワークの重みの分布構造を利用して、ほぼロスレス圧縮を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PolarQuant, a post-training weight quantization method for large language models (LLMs) that exploits the distributional structure of neural network weights to achieve near-lossless compression. PolarQuant operates in three stages: (1) block-wise normalization to the unit hypersphere, (2) Walsh-Hadamard rotation to transform coordinates into approximately Gaussian random variables, and (3) quantization with centroids matched to the Gaussian distribution. Our ablation reveals that Hadamard rotation alone accounts for 98% of the quality improvement, reducing Qwen3.5-9B perplexity from 6.90 (absmax Q5) to 6.40 (Delta = +0.03 from FP16), making it practically lossless without any calibration data. Furthermore, PolarQuant functions as an effective preprocessing step for downstream INT4 quantizers: PolarQuant Q5 dequantized and re-quantized by torchao INT4 achieves perplexity 6.56 versus 6.68 for direct absmax INT4, while maintaining 43.1 tok/s throughput at 6.5 GB VRAM. Code and models are publicly available.
- Abstract(参考訳): 本稿では,ニューラルネットワーク重みの分布構造を利用した大規模言語モデル(LLM)の学習後重み量子化手法であるPolarQuantについて述べる。
PolarQuant は、(1) 単位超球面へのブロックワイド正規化、(2) ウォルシュ・アダマール回転により座標をほぼガウス確率変数に変換すること、(3) ガウス分布に一致するセントロイドの量子化である。
我々のアブレーションは、アダマール回転だけで品質改善の98%を占めており、Qwen3.5-9Bのパープレキシティを6.90 (absmax Q5) から6.40 (Delta = +0.03 from FP16) に減少させ、キャリブレーションデータなしでは事実上損失を生じないことを示した。
さらに、PolarQuantは、下流のINT4量子化器の効果的な前処理ステップとして機能する: PolarQuant Q5は、Torchao INT4によって量子化および再量子化され、直接absmax INT4に対して6.56対6.68のパープレキシティを実現し、43.1 tok/sスループットを6.5 GB VRAMで維持する。
コードとモデルは公開されている。
関連論文リスト
- ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing [0.0]
我々は,TurboQuant(TQ)を統合したLLMのための新しい3ビット重み量子化フォーマットであるITQ3_S(Interleaved Ternary Quantization -- Specialized)を提案する。
従来の3ビット法では、重み付き重み分布とチャネル間外周による精度の低下が見られた。
ITQ3_Sは、量子化の前にFWHTを介して重み空間を前回転させ、ベクトルにエネルギーを分散させ、ガウス近傍の分布を誘導する。
論文 参考訳(メタデータ) (2026-03-30T00:03:22Z) - KurTail : Kurtosis-based LLM Quantization [51.24081396305435]
KurTailは、大規模言語モデルのアクティベートにおいて、アウトレーヤを緩和する、新しいトレーニング後の量子化スキームである。
MMLUの精度は13.3%向上し、Wikiの難易度はQuaRotに比べて15.5%低下している。
また、SpinQuantを2.6%のMMLUゲインで上回り、パープレキシティを2.9%削減し、トレーニングコストを削減した。
論文 参考訳(メタデータ) (2025-03-03T12:43:06Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。
本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文 参考訳(メタデータ) (2024-05-26T02:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。