論文の概要: PTQ4DiT: Post-training Quantization for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2405.16005v3
- Date: Thu, 17 Oct 2024 15:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:17.517087
- Title: PTQ4DiT: Post-training Quantization for Diffusion Transformers
- Title(参考訳): PTQ4DiT:拡散変圧器のポストトレーニング量子化
- Authors: Junyi Wu, Haoxuan Wang, Yuzhang Shang, Mubarak Shah, Yan Yan,
- Abstract要約: ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。
PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
- 参考スコア(独自算出の注目度): 52.902071948957186
- License:
- Abstract: The recent introduction of Diffusion Transformers (DiTs) has demonstrated exceptional capabilities in image generation by using a different backbone architecture, departing from traditional U-Nets and embracing the scalable nature of transformers. Despite their advanced capabilities, the wide deployment of DiTs, particularly for real-time applications, is currently hampered by considerable computational demands at the inference stage. Post-training Quantization (PTQ) has emerged as a fast and data-efficient solution that can significantly reduce computation and memory footprint by using low-bit weights and activations. However, its applicability to DiTs has not yet been explored and faces non-trivial difficulties due to the unique design of DiTs. In this paper, we propose PTQ4DiT, a specifically designed PTQ method for DiTs. We discover two primary quantization challenges inherent in DiTs, notably the presence of salient channels with extreme magnitudes and the temporal variability in distributions of salient activation over multiple timesteps. To tackle these challenges, we propose Channel-wise Salience Balancing (CSB) and Spearmen's $\rho$-guided Salience Calibration (SSC). CSB leverages the complementarity property of channel magnitudes to redistribute the extremes, alleviating quantization errors for both activations and weights. SSC extends this approach by dynamically adjusting the balanced salience to capture the temporal variations in activation. Additionally, to eliminate extra computational costs caused by PTQ4DiT during inference, we design an offline re-parameterization strategy for DiTs. Experiments demonstrate that our PTQ4DiT successfully quantizes DiTs to 8-bit precision (W8A8) while preserving comparable generation ability and further enables effective quantization to 4-bit weight precision (W4A8) for the first time.
- Abstract(参考訳): 最近導入されたDiffusion Transformers (DiTs)は、異なるバックボーンアーキテクチャを使用して、従来のU-Netから離れ、トランスフォーマーのスケーラブルな性質を受け入れることで、画像生成において例外的な能力を実証している。
高度な能力にもかかわらず、特にリアルタイムアプリケーション向けのDiTの広範な展開は、推論段階でのかなりの計算要求によって妨げられている。
ポストトレーニング量子化(PTQ)は、低ビット重みとアクティベーションを使用して計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
しかし、DiTsの適用性はまだ検討されておらず、DiTsのユニークな設計のため、非自明な困難に直面している。
本稿では,DiTのPTQ法であるPTQ4DiTを提案する。
本研究では,DiTsに固有の2つの主量子化問題,特に極大な静電チャネルの存在,および複数の時間経過における静電活性化分布の時間的変動を明らかにする。
これらの課題に対処するため,チャンネルワイド・サリエンス・バランシング (CSB) とスピアメンの$\rho$-guided Salience Calibration (SSC) を提案する。
CSBはチャネルの等級の相補性を利用して極端を再分配し、活性化と重みの両方の量子化誤差を軽減する。
SSCは、バランスの取れたサリエンスを動的に調整し、アクティベーションの時間的変動を捉えることによってこのアプローチを拡張している。
さらに,推定中にPTQ4DiTが引き起こす余分な計算コストを削減するため,Ditのオフライン再パラメータ化戦略を設計する。
実験により, PTQ4DiTはDiTを8ビット精度 (W8A8) に量子化し, さらに4ビット重量精度 (W4A8) の有効定量化を可能にした。
関連論文リスト
- DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing [5.174900115018253]
効率的な拡散変換器(DiT)のためのデータフリー後トレーニング量子化(PTQ)法を提案する。
DiTASは、入力アクティベーションにおけるチャネルワイド・アウトレイアの影響を軽減するために、時間的凝集平滑化手法が提案されている。
提案手法により,DiTの4ビット重み付き8ビットアクティベーション(W4A8)量子化が可能であり,全精度モデルとして同等の性能を維持した。
論文 参考訳(メタデータ) (2024-09-12T05:18:57Z) - Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers [45.762142897697366]
後トレーニング量子化(PTQ)は、モデルサイズを圧縮し、事前トレーニングされたモデルの推論を高速化し、モデルの再トレーニングをなくし、有望なソリューションを提供する。
We have observed the existing PTQ framework designed for both ViT and conventional Diffusion model fall into biased Quantization and result result great performance degradation。
重みとアクティベーションの入力チャネル間の実質的な分散を管理するための微粒な量子化、量子化の粒度を最適化し冗長性を緩和する自動探索戦略、タイムステップ間でのアクティベーション変化を捉える動的アクティベーション量子化の3つの手法をシームレスに統合するQ-DiTを考案した。
論文 参考訳(メタデータ) (2024-06-25T07:57:27Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation [23.00085349135532]
ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。
既存の拡散量子化手法をU-Netに適用することは品質維持の課題に直面している。
我々は、新しい距離分離型混合精度量子化法(ViDiT-Q-MP)により、ViDiT-Qを改善する。
論文 参考訳(メタデータ) (2024-06-04T17:57:10Z) - HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization [10.307268005739202]
拡散変換器(DiT)は、最近、優れた視覚生成能力に対して大きな注目を集めている。
DiTは高いパラメータカウントと実装コストを持ち、携帯電話などのリソース制限されたデバイスでの使用を著しく制限している。
4ビット浮動小数点(FP)の精度をDiT推論の重みとアクティベーションの両面に利用した,効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:56:11Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。