論文の概要: SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights
- arxiv url: http://arxiv.org/abs/2509.22944v3
- Date: Thu, 09 Oct 2025 08:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.716786
- Title: SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights
- Title(参考訳): SINQ: Sinkhorn-Normalized Quantization for Calibration-free Low-precision LLM Weights
- Authors: Lorenz K. Müller, Philippe Bich, Jiawei Zhuang, Ahmet Çelik, Luca Benfenati, Lukas Cavigelli,
- Abstract要約: 訓練後の量子化は、大規模言語モデルを低精度で展開するための最も広く使われている戦略として現れてきた。
現在の手法では、ビット幅が4以下でパープレキシティ劣化を示す。
本稿では,2軸スケール係数と高速シンクホーン-ノック方式のアルゴリズムにより,既存の学習後量子化器を増強するSINQを紹介する。
- 参考スコア(独自算出の注目度): 8.95245917088986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization has emerged as the most widely used strategy for deploying large language models at low precision. Still, current methods show perplexity degradation at bit-widths less than or equal to 4, partly because representing outliers causes precision issues in parameters that share the same scales as these outliers. This problem is especially pronounced for calibration-free, uniform quantization methods. We introduce SINQ to augment existing post-training quantizers with an additional second-axis scale factor and a fast Sinkhorn-Knopp-style algorithm that finds scales to normalize per-row and per-column variances, thereby minimizing a novel per-matrix proxy target for quantization: the matrix imbalance. Our method has no interactions between layers and can be trivially applied to new architectures to quantize any linear layers. We evaluate our method on the Qwen3 model family and DeepSeek-V2.5. SINQ improves WikiText2 and C4 perplexity significantly against uncalibrated uniform quantization baselines and can be further enhanced by combining it with calibration and non-uniform quantization levels. Code to reproduce the results of this work and to easily quantize models using SINQ is available at https://github.com/huawei-csl/SINQ.
- Abstract(参考訳): 訓練後の量子化は、大規模言語モデルを低精度で展開するための最も広く使われている戦略として現れてきた。
しかしながら、現在の手法では、ビット幅が4以下である場合のパープレキシティ劣化が示される。
この問題はキャリブレーションのない均一な量子化法では特に顕著である。
SINQを導入して,2軸スケール係数と高速シンクホーン・ノック方式のアルゴリズムを導入し,各行ごとの分散とカラムごとの分散を正規化し,量子化のための新しい行列ごとのプロキシターゲットである行列不均衡を最小化する。
我々の手法は層間の相互作用がなく、線形層を定量化するために新しいアーキテクチャに自明に適用することができる。
提案手法をQwen3モデルファミリーとDeepSeek-V2.5で評価した。
SINQ は WikiText2 と C4 のパープレキシティを一様量子化ベースラインに対して大幅に改善し、キャリブレーションと非一様量子化レベルを組み合わせることでさらに拡張することができる。
この作業の結果を再現し、SINQを使用したモデルの定量化を容易にするコードはhttps://github.com/huawei-csl/SINQで公開されている。
関連論文リスト
- PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。
本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。
ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-18T22:01:55Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [56.22507677736051]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。