論文の概要: QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling
- arxiv url: http://arxiv.org/abs/2605.26339v1
- Date: Mon, 25 May 2026 21:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.472595
- Title: QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling
- Title(参考訳): QAM-W:アダマール回転とアクティベーション・アウェアスケーリングによるLLM重みの2次元コードブック量子化
- Authors: Preetam Sharma, Kacper Dobek,
- Abstract要約: トレーニング後の量子化器は、重み列内のペアワイズ座標構造を捨てる。
本稿では,QAM-W (Quadrature Amplitude Modulation for Weights) を導入する。
3.5bpwの変種は量子化耐性アーキテクチャと競合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scalar post-training quantizers discard pairwise coordinate structure within weight rows. We introduce QAM-W (Quadrature Amplitude Modulation for Weights), a codec that recovers this structure: each row is L2-normalized, block-Hadamard rotated, paired into 2D coordinates, and quantized against a single Lloyd-Max codebook trained on the unit circular Gaussian, with activation-aware per-channel scaling. In a cross-model study spanning five LLMs from four families (1.1B--13B parameters) and eight quantized configurations, the activation-aware variant at $\approx 5.5$ bpw stays within $\pm 0.4\%$ of BF16 WikiText-2 perplexity on every model, matching the SmoothQuant W8A8 quality envelope at $32\%$ fewer weight bits. Joint 2D coding outperforms polar (amplitude $\times$ phase) coding by 2--15~pp $Δ$PPL at equal bitrate, and paired KL against BF16 tracks $Δ$PPL\% at Spearman $ρ= 0.99$ across 37 (method, model) rows, consistent with a monotone composite bound from codec distortion to KL divergence. A 3.5~bpw variant is competitive on quantization-tolerant architectures. At strict 4~bpw, the rotated-codebook frontier method QTIP outperforms QAM-W; the contribution is the quality-preserving 5--6~bpw band.
- Abstract(参考訳): トレーニング後の量子化器は、重み列内のペアワイズ座標構造を捨てる。
QAM-W (Quadrature Amplitude Modulation for Weights) は、各行がL2正規化され、ブロック・アダマールが回転し、2次元座標にペア化され、単位ガウスで訓練された単一のロイド・マックス符号ブックとアクティベーション・アウェア・チャネル・スケーリングで量子化される。
4つのファミリー (1.1B-13Bパラメータ) と8つの量子化構成から5つのLSMにまたがるクロスモデル研究において、アクティベーション対応のバリエーションである$\approx 5.5$ bpwは、すべてのモデルで$\pm 0.4\%のBF16 WikiText-2パープレキシティに留まり、SmoothQuant W8A8の品質エンベロープを32\%のより少ないウェイトビットで一致させる。
2--15~pp $Δ$PPLを同じビットレートで符号化し、2-15~pp $Δ$PPLとBF16トラックをペアにしたKLは、Spearman $ρ= 0.99$ across 37 (method, model) rowsで、コーデック歪みからKL発散へのモノトン合成と整合する。
3.5~bpwの変種は量子化耐性アーキテクチャと競合する。
厳格な4~bpwでは、回転符号ブックフロンティアQTIPはQAM-Wより優れ、品質保存の5〜6~bpwバンドである。
関連論文リスト
- Influence-Inspired Spectral Rotations for Extreme Low-Bit LLM Quantization [0.0]
重みのみの極低ビット量子化に対する共役理論論文の影響を応用する。
BBTspectralはWikitext-2の難易度をW2A16のバニラオートラウンドと比較して58%削減することを示した。
論文 参考訳(メタデータ) (2026-05-24T18:05:37Z) - ActQuant: Sub-4-bit Action-Guided Quantization for Vision-Language-Action Models [45.62029693245481]
本稿では,アクション誘導型混合精度PTQフレームワークであるActQuantを紹介する。
ActQuant は、(1) エージェントの動作の予測にどの程度貢献するかに基づいて、各重み行列に1ビット幅を割り当てるテンソル間ビットアロケータである。
我々はまた、効率的な低ビットカーネルを持つネイティブC/C++にポートするエージェント変換パイプラインであるOmniModelも導入した。
論文 参考訳(メタデータ) (2026-05-19T19:57:26Z) - BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - IsoQuant: Hardware-Aligned SO(4) Isoclinic Rotations for LLM KV Cache Compression [0.4496256885343706]
四元数代数に基づくブロックワイズ回転フレームワークと、SO(4)$の等クリニック分解を提案する。
IsoQuantは、平均的なカーネルレベルのスピードアップを4.5times$--$4.7times$ over RotorQuantで達成し、ピーク時のスピードアップは6times$以上である。
論文 参考訳(メタデータ) (2026-03-30T13:37:45Z) - Rotate, Clip, and Partition: Towards W2A4KV4 Quantization by Integrating Rotation and Learnable Non-uniform Quantizer [7.833559115428751]
Rotate, Clip, and Partition (RCP)は量子化対応トレーニング(QAT)アプローチである。
RCPは最近の回転法と新しい一様質量量化器の設計を統合している。
RCPはLLaMA-2-7BをW2A4KV4に圧縮でき、わずか2.84 WikiText2 pplと5.29倍のメモリフットプリントが失われた。
論文 参考訳(メタデータ) (2025-02-17T08:12:34Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。