論文の概要: Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping
- arxiv url: http://arxiv.org/abs/2503.06930v1
- Date: Mon, 10 Mar 2025 05:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:18.237359
- Title: Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping
- Title(参考訳): 階層型タイムステップグルーピングによる拡散変圧器の追従後量子化
- Authors: Ning Ding, Jing Han, Yuchuan Tian, Chao Xu, Kai Han, Yehui Tang,
- Abstract要約: Diffusion Transformer (DiT) は画像生成モデルを構築する上で好まれる選択肢となっている。
DiTは純粋に、大きな言語モデルのようなスケーラビリティに優れたDiTをレンダリングするトランスフォーマーブロックのスタックで構成されている。
本稿では,これらの課題に対処するため,拡散変換に適したポストトレーニング量子化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.012101195384744
- License:
- Abstract: Diffusion Transformer (DiT) has now become the preferred choice for building image generation models due to its great generation capability. Unlike previous convolution-based UNet models, DiT is purely composed of a stack of transformer blocks, which renders DiT excellent in scalability like large language models. However, the growing model size and multi-step sampling paradigm bring about considerable pressure on deployment and inference. In this work, we propose a post-training quantization framework tailored for Diffusion Transforms to tackle these challenges. We firstly locate that the quantization difficulty of DiT mainly originates from the time-dependent channel-specific outliers. We propose a timestep-aware shift-and-scale strategy to smooth the activation distribution to reduce the quantization error. Secondly, based on the observation that activations of adjacent timesteps have similar distributions, we utilize a hierarchical clustering scheme to divide the denoising timesteps into multiple groups. We further design a re-parameterization scheme which absorbs the quantization parameters into nearby module to avoid redundant computations. Comprehensive experiments demonstrate that out PTQ method successfully quantize the Diffusion Transformer into 8-bit weight and 8-bit activation (W8A8) with state-of-the-art FiD score. And our method can further quantize DiT model into 4-bit weight and 8-bit activation (W4A8) without sacrificing generation quality.
- Abstract(参考訳): Diffusion Transformer (DiT) はその優れた生成能力のために、画像生成モデルを構築する上で好まれる選択肢となっている。
従来の畳み込みベースのUNetモデルとは異なり、DiTは純粋にトランスフォーマーブロックのスタックで構成されており、大きな言語モデルのようなスケーラビリティに優れたDiTをレンダリングする。
しかし、モデルサイズの増加とマルチステップサンプリングパラダイムは、デプロイメントと推論にかなりのプレッシャーをもたらす。
本研究では,これらの課題に対処するため,拡散変換に適したポストトレーニング量子化フレームワークを提案する。
まず、DiTの量子化の難しさは、主に時間依存チャネル固有の外れ値から生じる。
本稿では,アクティベーション分布を円滑にし,量子化誤差を低減するための時間ステップ対応シフト・アンド・スケール戦略を提案する。
第二に、隣接する時間ステップの活性化が類似した分布を持つという観測に基づいて、階層的クラスタリング方式を用いて、各時間ステップを複数のグループに分割する。
さらに、余剰計算を避けるために、量子化パラメータを近くのモジュールに吸収する再パラメータ化方式を設計する。
総合的な実験により、PTQ法は拡散トランスフォーマーを8ビットの重みと8ビットのアクティベーション(W8A8)に、最先端のFiDスコアで量子化することに成功した。
また,DiTモデルを4ビットの重み付けと8ビットの活性化(W4A8)により,生成品質を犠牲にすることなく定量化することができる。
関連論文リスト
- TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers [3.389132862174821]
モデルの量子化は、より低い精度で重みとアクティベーション値を表す。
時間群量子化(TGQ)は、アクティベーションの時間的変動に起因する量子化誤差を低減するために提案される。
提案アルゴリズムは,W8A8でFIDが0.29増加し,元の完全精度モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-06T13:14:52Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing [5.174900115018253]
効率的な拡散変換器(DiT)のためのデータフリー後トレーニング量子化(PTQ)法を提案する。
DiTASは、入力アクティベーションにおけるチャネルワイド・アウトレイアの影響を軽減するために、時間的凝集平滑化手法が提案されている。
提案手法により,DiTの4ビット重み付き8ビットアクティベーション(W4A8)量子化が可能であり,全精度モデルとして同等の性能を維持した。
論文 参考訳(メタデータ) (2024-09-12T05:18:57Z) - Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers [45.762142897697366]
ポストトレーニング量子化(PTQ)は有望なソリューションとして登場し、事前訓練されたモデルに対するモデル圧縮と高速化推論を可能にする。
DiT量子化の研究は依然として不十分であり、既存のPTQフレームワークは偏りのある量子化に悩まされがちである。
入力チャネル間での重みとアクティベーションの有意な分散を扱うための自動量子化粒度割当と、タイムステップとサンプルの両方にわたるアクティベーション変化を適応的にキャプチャする標本ワイド動的アクティベーション量子化という、2つの重要な手法をシームレスに統合する新しいアプローチであるQ-DiTを提案する。
論文 参考訳(メタデータ) (2024-06-25T07:57:27Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。
PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文 参考訳(メタデータ) (2024-05-25T02:02:08Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。