論文の概要: Sliced-Wasserstein Distribution Alignment Loss Improves the Ultra-Low-Bit Quantization of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.07878v1
- Date: Sun, 11 Jan 2026 15:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.887922
- Title: Sliced-Wasserstein Distribution Alignment Loss Improves the Ultra-Low-Bit Quantization of Large Language Models
- Title(参考訳): Sliced-Wasserstein分布アライメント損失は大規模言語モデルの超低ビット量子化を改善する
- Authors: Deyu Cao, Yixin Yin, Samin Aref,
- Abstract要約: 超低ビット後量子化における分布認識キャリブレーションのためのスライスされたワッサースタイン損失関数を提案する。
提案した損失は、ランダムな線形射影の下での完全精度および量子化モデルの出力分布を整列する。
OmniQuant と TesseraQ という2つのフロンティア手法を組み込むことで,提案モデルの性能向上を実証する。
- 参考スコア(独自算出の注目度): 0.5964436882344729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The benefits of most large language models come with steep and often hidden economic and environmental costs due to their resource usage inefficiency during deployment. Model quantization improves energy and memory efficiency through representing model parameters by lower-precision values. However, compression below 4-bits often distorts activation distributions and degrades performance. We address this challenge by introducing a sliced Wasserstein loss function for distribution-aware calibration in ultra-low-bit post-training quantization. The proposed loss aligns the output distributions of full-precision and quantized models under random linear projections, complementing standard mean-squared error loss without adding any computational overhead during inference. Our proposed loss function can be incorporated with any post-training quantization framework that has a retraining component. We demonstrate the performance gains of our proposed model by incorporating it with two frontier methods known as OmniQuant and TesseraQ. Compared to these two baselines, the proposed loss consistently improves both perplexity and downstream task accuracy across multiple ultra-low-bit settings. Our proposed loss function recovers 4.12-20.37% of the OmniQuant's lost accuracy on the language model LLaMA-2-7B, 0.93-7.65% on OPT-6.7B, and 2.26-6.20% on LLaMA-2-13B. TesseraQ's accuracy degradation is recovered by 3.63-7.63% in relative terms when augmented by our proposed loss function. Taken together, these results demonstrate that distributional alignment provides a simple yet effective performance boost that can push the limits of frontier quantization methods. Our method is available on GitHub to facilitate future progress in ultra-low-bit quantization.
- Abstract(参考訳): ほとんどの大きな言語モデルの利点は、配置中のリソース使用効率の悪さのために、急激でしばしば隠れた経済的・環境的なコストが伴う。
モデル量子化は、低精度の値でモデルパラメータを表現することにより、エネルギーとメモリ効率を改善する。
しかし、4ビット以下の圧縮は、しばしば活性化分布を歪め、性能を低下させる。
超低ビット後量子化における分布を考慮したキャリブレーションのためのスライスされたワッサースタイン損失関数を導入することでこの問題に対処する。
提案した損失は、ランダムな線形射影の下での完全精度と量子化モデルの出力分布を一致させ、推論中に計算オーバーヘッドを加えることなく標準的な平均二乗誤差損失を補完する。
提案した損失関数は、再学習コンポーネントを持つ任意のポストトレーニング量子化フレームワークに組み込むことができる。
OmniQuant と TesseraQ という2つのフロンティアメソッドを組み込むことで,提案モデルの性能向上を実証する。
これら2つのベースラインと比較して、提案された損失は複数のUltra-low-bit設定において、難易度とダウンストリームタスクの精度の両方を一貫して改善する。
提案した損失関数は, 言語モデルLLaMA-2-7BにおけるOmniQuantの損失精度の4.12-20.37%, OPT-6.7Bでは0.93-7.65%, LLaMA-2-13Bでは2.26-6.20%を回復する。
TesseraQの精度劣化は,提案した損失関数で拡張した場合に相対的に3.63-7.63%回復する。
これらの結果から、分布アライメントは、フロンティア量子化法の限界を推し進めることのできる、単純かつ効果的な性能向上を提供することを示した。
我々の手法は、超低ビット量子化の今後の進歩を促進するためにGitHubで利用可能である。
関連論文リスト
- CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - First-Order Error Matters: Accurate Compensation for Quantized Large Language Models [32.69069234109942]
後学習量子化(PTQ)は、大規模言語モデル(LLM)の圧縮に効率的なアプローチを提供する
既存の補償に基づくウェイトキャリブレーション法は、しばしば量子化誤差をモデル化するために2階テイラー展開に依存する。
本稿では,量子化誤差補償を改善するために,一階勾配項を明示的に組み込んだ新しいPTQ手法であるFOEMを提案する。
論文 参考訳(メタデータ) (2025-07-15T06:18:46Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - QUAD: Quantization and Parameter-Efficient Tuning of LLM with Activation Decomposition [21.13478769431063]
QUID(Quantization with Activation Decomposition)は、Singular Value Decomposition(SVD)を利用して、有効4ビット量子化のためのアクティベーションアウトリアを抑制するフレームワークである。
W4A4の量子化では94パーセントの精度、W4A4/A8では98%の精度、Llama-3およびQwen-2.5モデルのパラメータ効率の微調整を実現している。
論文 参考訳(メタデータ) (2025-03-25T05:03:56Z) - Minimize Quantization Output Error with Bias Compensation [35.43358597502087]
量子化は、ディープニューラルネットワーク(DNN)のメモリ使用量と計算強度を低減する有望な方法である
本稿では,出力誤差を定量化せずに精度を向上する手法を提案する。
視覚モデルと大規模言語モデルの実験を行う。
論文 参考訳(メタデータ) (2024-04-02T12:29:31Z) - QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven
Fine Tuning [16.50084447690437]
この研究は、これらの精度低下の原因を明らかにし、量子化フレンドリな微調整法である textbfQuantTune を提案している。
提案手法は, ViT, Bert-base, OPT など,トランスフォーマーベースモデルにおけるポストトレーニング量子化の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-03-11T08:09:30Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。
我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。
本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。