論文の概要: DLLMQuant: Quantizing Diffusion-based Large Language Models
- arxiv url: http://arxiv.org/abs/2508.14090v1
- Date: Thu, 14 Aug 2025 09:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.177861
- Title: DLLMQuant: Quantizing Diffusion-based Large Language Models
- Title(参考訳): DLLMQuant:拡散に基づく大規模言語モデルの量子化
- Authors: Chen Xu, Dawei Yang,
- Abstract要約: 拡散に基づく大規模言語モデル(Ms)は、非自己回帰的なテキスト生成を約束している。
ポストトレーニング量子化(PTQ)は、アロケーションMに適用した場合、精度が著しく低下し、性能が低下する。
3つの新しい技法を取り入れたPTQフレームワークであるMQuantを提案する。
- 参考スコア(独自算出の注目度): 7.970411645859868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based large language models (DLLMs) have shown promise for non-autoregressive text generation, but their deployment is constrained by large model sizes and heavy computational costs. Post-training quantization (PTQ), a widely used method for compressing and accelerating Large Language Models (LLMs), suffers from severe accuracy degradation and reduced generalization performance when directly applied to DLLMs (e.g., AWQ suffers a 16% accuracy drop on LLADA under W4A4). This paper explores how DLLMs' key mechanisms - dynamic masking, iterative generation, bidirectional attention - clash with quantization. We identify three core issues: 1) Iterative generation and dynamic masking ratios lead to distinct token distributions across decoding steps, which are not adequately captured by existing PTQ calibration methods; 2) Quantization errors are accumulated and amplified progressively during iteration in DLLMs, causing quantized models to perform worse as decoding steps progress; 3) Unmasked tokens stabilize while masked remain probabilistic, making overall feature distribution incompatible with existing PTQ methods. To address these issues, we propose DLLMQuant, a PTQ framework tailored for DLLMs, which incorporates three novel techniques: 1) Temporal-Mask Adaptive Sampling (TMAS), a calibration method that accounts for both time and mask factors, with the capacity to capture distributions across timesteps. 2) Interaction-Aware Activation Quantization (IA-AQ), which utilizes bidirectional attention's interaction signals to dynamically allocate quantization resources. 3) Certainty-Guided Quantization (CGQ), which integrates mask status and token scores as key weighting criteria into error compensation, making weight quantization more suitable for DLLMs. Experiments show that DLLMQuant achieves significant performance gains while enhancing efficiency.
- Abstract(参考訳): 拡散に基づく大規模言語モデル (DLLM) は非自己回帰的なテキスト生成を約束しているが、その展開は大きなモデルサイズと計算コストに制約されている。
大規模言語モデル(LLM)の圧縮と高速化に広く用いられているPTQは、DLLMに直接適用した場合、精度の低下と一般化性能の低下に悩まされる(例えば、AWQはW4A4の下でLLADAに16%の精度低下を被る)。
本稿では,DLLMの鍵となるメカニズムである動的マスキング,反復生成,双方向の注意 – が量子化とどのように衝突するかを考察する。
私たちは3つの問題を特定します。
1) 反復生成と動的マスキング比は,既存のPTQキャリブレーション法で適切に捉えられていない復号ステップ間で異なるトークン分布をもたらす。
2) DLLMの繰り返しにおける量子化誤差の蓄積と増幅により、復号処理が進むにつれて量子化モデルはさらに悪化する。
3) マスク付きトークンは安定であり, 従来のPTQ法とは相容れない特徴分布を保っている。
これらの課題に対処するために,DLLM に適した PTQ フレームワークである DLLMQuant を提案する。
1)時間的マスク適応サンプリング(TMAS)は,時間的要因とマスク的要因の両方を考慮したキャリブレーション手法である。
2) 双方向アテンションの相互作用信号を用いて量子化資源を動的に割り当てるインタラクション・アウェア・アクティベーション・量子化(IA-AQ)。
3)マスクの状態とトークンスコアを重要な重み付け基準として組み込んだCGQ(Certainty-Guided Quantization)により,DLLMの重み付けがより適している。
DLLMQuantは効率を向上しながら、大幅な性能向上を実現している。
関連論文リスト
- LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Text-to-Image Generation [34.14174796390669]
トレーニング後の量子化(PTQ)は、メモリ使用量を減らすとともに、推論を高速化する有望なソリューションである。
既存のPTQ手法は、極端に低ビット設定下での厳しい性能劣化に悩まされる。
本稿では,効率的なPTQフレームワークであるLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization [15.01214559812713]
MQuantは、マルチモーダル大規模言語モデル(MLLM)の課題に取り組むために設計されたポストトレーニング量子化フレームワークである。
5つのメインストリームMLLMでは、W4A8のMQuantがほぼ浮動小数点精度を達成し、推論遅延を最大30%削減する。
我々のMQuantは、資源制約のあるデバイスにおいて、効率よく正確なMLLM推論のためのギャップを効果的に橋渡しします。
論文 参考訳(メタデータ) (2025-02-01T13:08:02Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。