論文の概要: Quant-dLLM: Post-Training Extreme Low-Bit Quantization for Diffusion Large Language Models
- arxiv url: http://arxiv.org/abs/2510.03274v1
- Date: Sat, 27 Sep 2025 13:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.632689
- Title: Quant-dLLM: Post-Training Extreme Low-Bit Quantization for Diffusion Large Language Models
- Title(参考訳): Quant-dLLM:拡散大言語モデルのための訓練後の極低ビット量子化
- Authors: Tianao Zhang, Zhiteng Li, Xianglong Yan, Haotong Qin, Yong Guo, Yulun Zhang,
- Abstract要約: 拡散大言語モデル (dLLMs) は双方向のコンテキストと柔軟なマスマスキングデノジング生成を提供する。
我々は,dLLMに適した超低ビットPTQフレームワークであるQuant-dLLMを提案する。
Quant-dLLMは、dLLM上での最先端(SOTA)AR-transfer PTQ法よりも高い精度を達成する。
- 参考スコア(独自算出の注目度): 47.41616630151171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs), which offer bidirectional context and flexible masked-denoising generation, are emerging as a compelling alternative to autoregressive (AR) LLMs. However, like AR LLMs, their model sizes continue to grow, motivating weight compression for deployment. Although post-training quantization (PTQ) is effective for AR LLMs, directly transferring it to dLLMs at 2-bit leads to unsatisfactory performance. To tackle these challenges, we propose Quant-dLLM, an ultra-low-bit PTQ framework tailored to dLLMs. Since masked-denoising activations in dLLMs differ from the fully visible signals assumed by standard PTQ methods, we introduce Masked Calibration Simulation (MCS) to align calibration with the timestep-dependent masking, which yields more reliable calibrations. Moreover, we propose a Data-aware Any-order Quantizer (DAQ) that learns ultra-low-bit weight representations via an optimization algorithm. It performs iterative approximation guided by our simulated calibration data. In addition, under a strict 2-bit budget, we introduce Adaptive Blockwise Mixed Precision (ABMP), a sensitivity-based precision allocation scheme that adaptively assigns bit width across channel groups. When restricted to 2-bit precision, Quant-dLLM consistently achieves higher accuracy than state-of-the-art (SOTA) AR-transfer PTQ methods on dLLMs. The code and models will be available at: https://github.com/ZTA2785/Quant-dLLM.
- Abstract(参考訳): 双方向コンテキストと柔軟なマスマスマスキング生成を提供する拡散大言語モデル (dLLM) は、自己回帰(AR) LLM に代わる魅力的な代替手段として現れつつある。
しかし、AR LLMと同様、モデルのサイズは成長を続けており、デプロイメントのための重量圧縮を動機付けている。
後学習量子化(PTQ)はAR LLMに有効であるが、2ビットで直接dLLMに転送すると不満足な性能をもたらす。
これらの課題に対処するため,我々は,dLLMに適した超低ビットPTQフレームワークであるQuant-dLLMを提案する。
標準PTQ法で仮定される完全可視信号とは,dLLMにおけるマスマスキングの活性化が異なるため,より信頼性の高いキャリブレーションをもたらすタイムステップ依存マスキングとキャリブレーションを整合させるMasked Calibration Simulation (MCS)を導入する。
さらに,超低ビット重み表現を最適化アルゴリズムを用いて学習するDAQ(Data-Aware Any-order Quantizer)を提案する。
シミュレーションキャリブレーションデータによって導かれる反復近似を実行する。
さらに、厳格な2ビット予算の下で、チャネル群間のビット幅を適応的に割り当てる感度に基づく精度割当方式であるAdaptive Blockwise Mixed Precision (ABMP)を導入する。
2ビット精度に制限された場合、Quant-dLLMは、dLLM上での最先端(SOTA)AR-transfer PTQ法よりも高い精度を達成する。
コードとモデルは、https://github.com/ZTA2785/Quant-dLLM.comで入手できる。
関連論文リスト
- SDQ-LLM: Sigma-Delta Quantization for 1-bit LLMs of any size [5.229694155440675]
大規模言語モデル(LLM)は、計算とメモリの問題に直面する。
SDQ-LLM: Sigma-Delta Quantization for 1-bit LLMs of any size。
SDQ-LLMの特徴は、Over-Sampling Ratio (OSR) の連続層である。
論文 参考訳(メタデータ) (2025-09-27T14:49:58Z) - SBVR: Summation of BitVector Representation for Efficient LLM Quantization [3.7018544730078413]
データ中の表現可能な点の数を制限することで量子化圧縮は、効率的な量子化の鍵となる。
既存のPTQ(Post-Training Quantization)ソリューションでは、ラウンドツーネアレス(RTN)ベースの方法とコードブックベースの方法の2つの主要なアプローチが採用されている。
SBVR(Summation of Bitplex Representation, ビットプレックス表現の要約)を提案する。
論文 参考訳(メタデータ) (2025-09-17T13:51:27Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。