論文の概要: Qift: Shift-Friendly No-Zero W2 Post-Training Quantization for Rotated W2A4/KV4 LLM Inference
- arxiv url: http://arxiv.org/abs/2606.02823v1
- Date: Mon, 01 Jun 2026 19:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.569663
- Title: Qift: Shift-Friendly No-Zero W2 Post-Training Quantization for Rotated W2A4/KV4 LLM Inference
- Title(参考訳): Qift: 回転W2A4/KV4 LLM推論のためのシフトフレンドリーな非ゼロW2ポストトレーニング量子化
- Authors: Chi-Wei Huang, Chia-Chi Tsai,
- Abstract要約: 2ビットの重み量子化はメモリ効率のLLM推論には魅力的である。
標準のW2レベルセット-2,-1,0,+1は攻撃的なW2A4/KV4設定でしばしば崩壊する。
回転W2A4/KV4推論のための固定ノゼロのW2レベルセットであるQiftを提案する。
- 参考スコア(独自算出の注目度): 3.308743964406687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-bit weight quantization is attractive for memory-efficient LLM inference, but the standard W2 level set {-2,-1,0,+1} often collapses under aggressive W2A4/KV4 settings. We study the scalar level-set geometry of two-bit weights in a Hadamard-rotated quantization pipeline. Conventional asymmetric W2 substantially improves over the standard level set, indicating that W2A4 failure is not only a bit-width problem but also a reconstruction-level problem. Across all 224 linear modules in each of LLaMA-2-7B and LLaMA-3.1-8B, pretrained weights are already nearly zero-centered, while Hadamard rotation primarily Gaussianizes their standardized shape: excess kurtosis and Q-Q error drop by orders of magnitude. Based on this approximate zero-centered Gaussian-like source model, we propose Qift, a fixed no-zero W2 level set for rotated W2A4/KV4 inference. The main level set is {+/-0.5, +/-1.5}, equivalently {+/-1, +/-3} under a half-scale reparameterization; a power-of-two variant uses {+/-1, +/-4} for sign-and-shift decoded weight application. Qift redesigns the fixed two-bit code-to-level mapping and is training-free, learned-codebook-free, group-grid-free, and zero-point-free, retaining the standard per-channel scale. A scale-invariant ratio analysis identifies an effective inner/outer centroid ratio range of 0.25 to 0.33, explaining why mirror no-zero (MNZ), Lloyd, NF2, and PoT-MNZ perform well while {+/-1, +/-2} does not. On both models, the no-zero level sets consistently improve pure W2A4 perplexity, L-layer mixed W2/W4 perplexity, downstream accuracy, and GPTQ residual behavior over the standard W2 level set. At L=16 mixed precision, they substantially narrow the gap to W3A4 while keeping half of the transformer layers at two-bit precision, giving a simple, source-aware, and deployment-friendly alternative to more complex learned W2 codebooks.
- Abstract(参考訳): 2ビットの重み量子化はメモリ効率のLLM推論には魅力的であるが、標準のW2レベルセット {-2,-1,0,+1} は攻撃的なW2A4/KV4設定でしばしば崩壊する。
本研究では,アダマール回転量子化パイプラインにおける2ビット重みのスカラーレベルセット幾何について検討する。
従来の非対称W2は標準レベルセットよりも大幅に改善され、W2A4の故障はビット幅の問題であるだけでなく、再構成レベルの問題でもある。
LLaMA-2-7BとLLaMA-3.1-8Bの各々の224個の線形加群のうち、事前訓練された重量は、ほぼゼロ中心であり、一方、アダマール回転は、過度のクルトシスとQ-Q誤差を桁違いに減少させることで、その標準形をガウシアン化する。
この近似ゼロ中心ガウス的ソースモデルに基づいて、回転W2A4/KV4推論のための固定されたゼロでないW2レベルセットであるQiftを提案する。
主レベル集合は {+/-0.5, +/-1.5} であり、半スケールのパラメータ化の下では {+/-1, +/-3} と等価である。
Qiftは固定された2ビットのコード・ツー・レベルマッピングを再設計し、トレーニングフリー、学習コードブックフリー、グループグリッドフリー、ゼロポイントフリーで、標準のチャネル単位のスケールを維持している。
スケール不変比分析は、鏡のゼロ(MNZ)、ロイド、NF2、およびPoT-MNZが、 {+/-1, +/-2} がうまく機能しないのに対して、有効内外セントロイド比が 0.25 から 0.33 であることを示す。
両モデルにおいて、ゼロでないレベルセットは、純粋W2A4パープレキシティ、L層混合W2/W4パープレキシティ、下流精度、標準W2レベルセットに対するGPTQ残差挙動を一貫して改善する。
L=16混合精度では、変換器の層の半分を2ビットの精度で保ちながらW3A4のギャップを著しく狭め、より複雑に学習されたW2コードブックに代わるシンプルなソース認識とデプロイメントフレンドリーな代替手段を提供する。
関連論文リスト
- QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling [0.0]
トレーニング後の量子化器は、重み列内のペアワイズ座標構造を捨てる。
本稿では,QAM-W (Quadrature Amplitude Modulation for Weights) を導入する。
3.5bpwの変種は量子化耐性アーキテクチャと競合する。
論文 参考訳(メタデータ) (2026-05-25T21:28:46Z) - Influence-Inspired Spectral Rotations for Extreme Low-Bit LLM Quantization [0.0]
重みのみの極低ビット量子化に対する共役理論論文の影響を応用する。
BBTspectralはWikitext-2の難易度をW2A16のバニラオートラウンドと比較して58%削減することを示した。
論文 参考訳(メタデータ) (2026-05-24T18:05:37Z) - Normalized Architectures are Natively 4-Bit [49.13186675123547]
重みと隠れ表現を単位超球面に制限するアーキテクチャであるnGPTは、本質的に低精度算術よりも堅牢である。
本手法は,最大3B/30Bパラメータの1.2B密度モデルとハイブリッド(Mamba-Transformer)MoEモデルの両方で検証する。
論文 参考訳(メタデータ) (2026-05-07T11:54:07Z) - Bit-by-Bit: Progressive QAT Strategy with Outlier Channel Splitting for Stable Low-Bit LLMs [34.72414661826396]
我々は、外部チャネル分割を備えたプログレッシブQATフレームワークBit-by-Bitを提案する。
提案手法は,(1)精度を段階的に低下させるブロックワイド・プログレッシブ・トレーニング,(2)整数量子化格子のネスト構造,(3)ラウンドリング・アウェア・アウトリー・チャネル分割の3つの重要な要素を統合する。
W2A2設定下では、Bit-by-BitはBitDistillerやEfficientQATといったベースラインをLlama2/3で大幅に上回り、2.25 WikiText2 PPLの損失しか得られない。
論文 参考訳(メタデータ) (2026-04-09T06:56:39Z) - Rotate, Clip, and Partition: Towards W2A4KV4 Quantization by Integrating Rotation and Learnable Non-uniform Quantizer [7.833559115428751]
Rotate, Clip, and Partition (RCP)は量子化対応トレーニング(QAT)アプローチである。
RCPは最近の回転法と新しい一様質量量化器の設計を統合している。
RCPはLLaMA-2-7BをW2A4KV4に圧縮でき、わずか2.84 WikiText2 pplと5.29倍のメモリフットプリントが失われた。
論文 参考訳(メタデータ) (2025-02-17T08:12:34Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs [72.26197676852958]
ローテーションに基づく新しい量子化方式であるQuaRotを紹介する。
QuaRotは、すべての重み、アクティベーション、KVキャッシュを含むエンドツーエンドを4ビットで量子化する。
我々の4ビット量子化LLaMa2-70Bモデルは、少なくとも0.47 WikiText-2パープレキシティが失われ、ゼロショット性能の99%を維持している。
論文 参考訳(メタデータ) (2024-03-30T19:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。