論文の概要: Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2406.17343v2
- Date: Tue, 19 Nov 2024 09:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:11:04.419932
- Title: Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers
- Title(参考訳): Q-DiT:拡散変圧器の高精度後量子化
- Authors: Lei Chen, Yuan Meng, Chen Tang, Xinzhu Ma, Jingyan Jiang, Xin Wang, Zhi Wang, Wenwu Zhu,
- Abstract要約: ポストトレーニング量子化(PTQ)は有望なソリューションとして登場し、事前訓練されたモデルに対するモデル圧縮と高速化推論を可能にする。
DiT量子化の研究は依然として不十分であり、既存のPTQフレームワークは偏りのある量子化に悩まされがちである。
入力チャネル間での重みとアクティベーションの有意な分散を扱うための自動量子化粒度割当と、タイムステップとサンプルの両方にわたるアクティベーション変化を適応的にキャプチャする標本ワイド動的アクティベーション量子化という、2つの重要な手法をシームレスに統合する新しいアプローチであるQ-DiTを提案する。
- 参考スコア(独自算出の注目度): 45.762142897697366
- License:
- Abstract: Recent advancements in diffusion models, particularly the architectural transformation from UNet-based models to Diffusion Transformers (DiTs), significantly improve the quality and scalability of image and video generation. However, despite their impressive capabilities, the substantial computational costs of these large-scale models pose significant challenges for real-world deployment. Post-Training Quantization (PTQ) emerges as a promising solution, enabling model compression and accelerated inference for pretrained models, without the costly retraining. However, research on DiT quantization remains sparse, and existing PTQ frameworks, primarily designed for traditional diffusion models, tend to suffer from biased quantization, leading to notable performance degradation. In this work, we identify that DiTs typically exhibit significant spatial variance in both weights and activations, along with temporal variance in activations. To address these issues, we propose Q-DiT, a novel approach that seamlessly integrates two key techniques: automatic quantization granularity allocation to handle the significant variance of weights and activations across input channels, and sample-wise dynamic activation quantization to adaptively capture activation changes across both timesteps and samples. Extensive experiments conducted on ImageNet and VBench demonstrate the effectiveness of the proposed Q-DiT. Specifically, when quantizing DiT-XL/2 to W6A8 on ImageNet ($256 \times 256$), Q-DiT achieves a remarkable reduction in FID by 1.09 compared to the baseline. Under the more challenging W4A8 setting, it maintains high fidelity in image and video generation, establishing a new benchmark for efficient, high-quality quantization in DiTs. Code is available at \href{https://github.com/Juanerx/Q-DiT}{https://github.com/Juanerx/Q-DiT}.
- Abstract(参考訳): 拡散モデル、特にUNetベースのモデルから拡散変換器(DiT)へのアーキテクチャ変換の進歩により、画像およびビデオ生成の品質とスケーラビリティが大幅に向上した。
しかし、その優れた能力にもかかわらず、これらの大規模モデルの相当な計算コストは、現実世界の展開に重大な課題をもたらす。
ポストトレーニング量子化(PTQ)は有望なソリューションとして登場し、コストのかかる再トレーニングなしに、事前トレーニングされたモデルに対するモデル圧縮と高速化推論を可能にする。
しかし、DiT量子化の研究は依然として不十分であり、従来の拡散モデル用に設計された既存のPTQフレームワークは偏りのある量子化に悩まされ、顕著な性能劣化をもたらす。
本研究では,重みとアクティベーションの両面での空間的ばらつきと,アクティベーションの時間的ばらつきが典型的に有意であることを示す。
これらの問題に対処するため、我々は、入力チャネル間の重みとアクティベーションの大きなばらつきを扱うための自動量子化粒度割当と、タイムステップとサンプルの両方にわたるアクティベーション変化を適応的に捉えるサンプルワイド動的アクティベーション量子化という、2つの重要な手法をシームレスに統合する新しいアプローチであるQ-DiTを提案する。
ImageNetとVBenchで行った大規模な実験は、提案したQ-DiTの有効性を実証している。
具体的には、ImageNet(256 \times 256$)上でDiT-XL/2をW6A8に量子化する際、Q-DiTはベースラインと比較してFIDを1.09削減する。
より困難なW4A8設定の下では、画像およびビデオ生成の忠実度を維持し、DiTの効率的で高品質な量子化のための新しいベンチマークを確立する。
コードは \href{https://github.com/Juanerx/Q-DiT}{https://github.com/Juanerx/Q-DiT} で公開されている。
関連論文リスト
- TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers [3.389132862174821]
モデルの量子化は、より低い精度で重みとアクティベーション値を表す。
時間群量子化(TGQ)は、アクティベーションの時間的変動に起因する量子化誤差を低減するために提案される。
提案アルゴリズムは,W8A8でFIDが0.29増加し,元の完全精度モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-06T13:14:52Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers [2.0862654518798034]
本稿では,視覚変換器のための分散親和性・外乱性を考慮したポストトレーニング量子化手法を提案する。
DopQ-ViTは、現在の量子化器の非効率性を分析し、TanQと呼ばれる分布に優しいタン量子化器を導入する。
DopQ-ViTは広範囲に検証され、量子化モデルの性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-06T16:40:04Z) - PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。
PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文 参考訳(メタデータ) (2024-05-25T02:02:08Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - Temporal Dynamic Quantization for Diffusion Models [18.184163233551292]
本稿では,時間ステップ情報に基づいて量子化間隔を動的に調整する新しい量子化手法を提案する。
従来の動的量子化手法とは異なり、本手法は推論時に計算オーバーヘッドを伴わない。
実験により,様々なデータセットにまたがる量子拡散モデルにより,出力品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-06-04T09:49:43Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。