論文の概要: DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation
- arxiv url: http://arxiv.org/abs/2409.14307v3
- Date: Wed, 09 Jul 2025 04:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.251265
- Title: DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation
- Title(参考訳): DilateQuant: ウェイトディレーションによる高精度かつ効率的な拡散量子化
- Authors: Xuewen Liu, Zhikai Li, Minhao Jiang, Mengjuan Chen, Jianquan Li, Qingyi Gu,
- Abstract要約: 後トレーニング量子化(PTQ)は、低ビットのケースで破滅的に失敗する。
量子化対応トレーニング(QAT)が不可欠である。
拡散モデルのための新しいQATフレームワークであるDilateQuantを提案する。
- 参考スコア(独自算出の注目度): 9.612860507356702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model quantization is a promising method for accelerating and compressing diffusion models. Nevertheless, since post-training quantization (PTQ) fails catastrophically at low-bit cases, quantization-aware training (QAT) is essential. Unfortunately, the wide range and time-varying activations in diffusion models sharply increase the complexity of quantization, making existing QAT methods inefficient. Equivalent scaling can effectively reduce activation range, but previous methods remain the overall quantization error unchanged. More critically, these methods significantly disrupt the original weight distribution, resulting in poor weight initialization and challenging convergence during QAT training. In this paper, we propose a novel QAT framework for diffusion models, called DilateQuant. Specifically, we propose Weight Dilation (WD) that maximally dilates the unsaturated in-channel weights to a constrained range through equivalent scaling. WD decreases the activation range while preserving the original weight range, which steadily reduces the quantization error and ensures model convergence. To further enhance accuracy and efficiency, we design a Temporal Parallel Quantizer (TPQ) to address the time-varying activations and introduce a Block-wise Knowledge Distillation (BKD) to reduce resource consumption in training. Extensive experiments demonstrate that DilateQuant significantly outperforms existing methods in terms of accuracy and efficiency. Code is available at http://github.com/BienLuky/DilateQuant .
- Abstract(参考訳): モデル量子化は拡散モデルの加速と圧縮のための有望な方法である。
それでも、低ビットのケースではPTQが破滅的に失敗するため、量子化対応トレーニング(QAT)が不可欠である。
残念ながら、拡散モデルにおける広い範囲と時間変化の活性化は量子化の複雑さを著しく増加させ、既存のQAT法を非効率にする。
等価なスケーリングはアクティベーション範囲を効果的に削減できるが、以前の方法は全体的な量子化誤差が変わらないままである。
さらに重要なことに、これらの手法はもともとの重量分布を著しく破壊し、QAT訓練中に重量初期化が悪く、収束が難しい結果となった。
本稿ではDilateQuantと呼ばれる拡散モデルのための新しいQATフレームワークを提案する。
具体的には,不飽和チャネル内重みを等価スケーリングにより制限範囲に最大に拡張する重み拡張(WD)を提案する。
WDは元の重量範囲を維持しながら活性化範囲を減少させ、量子化誤差を着実に減少させ、モデル収束を保証する。
精度と効率をさらに高めるため、時間変化の活性化に対応するための時間並列量子化器(TPQ)を設計し、訓練におけるリソース消費を減らすためにブロックワイズ知識蒸留(BKD)を導入する。
大規模な実験では、DilateQuantは精度と効率の点で既存の方法よりも大幅に優れていた。
コードはhttp://github.com/BienLuky/DilateQuantで入手できる。
関連論文リスト
- TR-DQ: Time-Rotation Diffusion Quantization [23.706266893272467]
時間-回転拡散量子化(TR-DQ)は、時間ステップと回転に基づく最適化を取り入れた新しい量子化法である。
TR-DQは既存の量子化法と比較して1.38-1.89xの高速化と1.97-2.58xのメモリ削減を実現している。
論文 参考訳(メタデータ) (2025-03-09T11:37:11Z) - CondiQuant: Condition Number Based Low-Bit Quantization for Image Super-Resolution [59.91470739501034]
画像超解像のための条件数に基づく低ビットポストトレーニング量子化であるCondiQuantを提案する。
CondiQuantは、計算オーバーヘッドを伴わずに、既存の最先端のポストトレーニング量子化手法よりも精度が高いことを示す。
論文 参考訳(メタデータ) (2025-02-21T14:04:30Z) - MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。
重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。
時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文 参考訳(メタデータ) (2024-12-16T08:31:55Z) - Magic for the Age of Quantized DNNs [0.6008132390640294]
ミニバッチサイズに依存しない新しい正規化(Layer-Batch Normalization)を導入し,推論時に追加コストを必要としない。
また、同じ関数を用いて活性化関数を量子化し、代理勾配を適用して、量子化重みと量子化活性化関数の両方でモデルを訓練する。
論文 参考訳(メタデータ) (2024-03-22T07:21:09Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - AWEQ: Post-Training Quantization with Activation-Weight Equalization for
Large Language Models [0.18416014644193066]
AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。
我々はさらに等化法を改良し、量子化バイアスの誤差を軽減し、モデルの堅牢性を確保する。
論文 参考訳(メタデータ) (2023-11-02T15:18:22Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Temporal Dynamic Quantization for Diffusion Models [18.184163233551292]
本稿では,時間ステップ情報に基づいて量子化間隔を動的に調整する新しい量子化手法を提案する。
従来の動的量子化手法とは異なり、本手法は推論時に計算オーバーヘッドを伴わない。
実験により,様々なデータセットにまたがる量子拡散モデルにより,出力品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-06-04T09:49:43Z) - Towards Accurate Post-training Quantization for Diffusion Models [73.19871905102545]
本稿では,効率的な画像生成のための拡散モデル(ADP-DM)の高精度なデータフリーポストトレーニング量子化フレームワークを提案する。
提案手法は, 拡散モデルの学習後の量子化を, 同様の計算コストで, 非常に大きなマージンで高速化する。
論文 参考訳(メタデータ) (2023-05-30T04:00:35Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。