論文の概要: Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2406.17343v1
- Date: Tue, 25 Jun 2024 07:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 15:11:49.088866
- Title: Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers
- Title(参考訳): Q-DiT:拡散変圧器の高精度後量子化
- Authors: Lei Chen, Yuan Meng, Chen Tang, Xinzhu Ma, Jingyan Jiang, Xin Wang, Zhi Wang, Wenwu Zhu,
- Abstract要約: 後トレーニング量子化(PTQ)は、モデルサイズを圧縮し、事前トレーニングされたモデルの推論を高速化し、モデルの再トレーニングをなくし、有望なソリューションを提供する。
We have observed the existing PTQ framework designed for both ViT and conventional Diffusion model fall into biased Quantization and result result great performance degradation。
重みとアクティベーションの入力チャネル間の実質的な分散を管理するための微粒な量子化、量子化の粒度を最適化し冗長性を緩和する自動探索戦略、タイムステップ間でのアクティベーション変化を捉える動的アクティベーション量子化の3つの手法をシームレスに統合するQ-DiTを考案した。
- 参考スコア(独自算出の注目度): 45.762142897697366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in diffusion models, particularly the trend of architectural transformation from UNet-based Diffusion to Diffusion Transformer (DiT), have significantly improved the quality and scalability of image synthesis. Despite the incredible generative quality, the large computational requirements of these large-scale models significantly hinder the deployments in real-world scenarios. Post-training Quantization (PTQ) offers a promising solution by compressing model sizes and speeding up inference for the pretrained models while eliminating model retraining. However, we have observed the existing PTQ frameworks exclusively designed for both ViT and conventional Diffusion models fall into biased quantization and result in remarkable performance degradation. In this paper, we find that the DiTs typically exhibit considerable variance in terms of both weight and activation, which easily runs out of the limited numerical representations. To address this issue, we devise Q-DiT, which seamlessly integrates three techniques: fine-grained quantization to manage substantial variance across input channels of weights and activations, an automatic search strategy to optimize the quantization granularity and mitigate redundancies, and dynamic activation quantization to capture the activation changes across timesteps. Extensive experiments on the ImageNet dataset demonstrate the effectiveness of the proposed Q-DiT. Specifically, when quantizing DiT-XL/2 to W8A8 on ImageNet 256x256, Q-DiT achieves a remarkable reduction in FID by 1.26 compared to the baseline. Under a W4A8 setting, it maintains high fidelity in image generation, showcasing only a marginal increase in FID and setting a new benchmark for efficient, high-quality quantization in diffusion transformers. Code is available at \href{https://github.com/Juanerx/Q-DiT}{https://github.com/Juanerx/Q-DiT}.
- Abstract(参考訳): 拡散モデルの最近の進歩、特に、UNetベースの拡散変換から拡散変換(DiT)へのアーキテクチャ変換の傾向は、画像合成の品質とスケーラビリティを著しく改善した。
驚くべき生成品質にもかかわらず、これらの大規模モデルの大規模な計算要求は、現実世界のシナリオにおける展開を著しく妨げます。
後トレーニング量子化(PTQ)は、モデルサイズを圧縮し、事前トレーニングされたモデルの推論を高速化し、モデルの再トレーニングをなくし、有望なソリューションを提供する。
しかし、既存のPTQフレームワークはViTと従来の拡散モデルの両方にのみ設計されており、バイアス量子化に陥り、性能が著しく低下する。
本稿では,DiTsの重量と活性化の両面において大きなばらつきがみられ,数値表現の制限が容易に解消されることがわかった。
この問題に対処するために、ウェイトとアクティベーションの入力チャネル間の実質的な分散を管理する微粒化量子化、量子化の粒度を最適化し冗長性を緩和する自動探索戦略、タイムステップ間のアクティベーション変化を捉える動的アクティベーション量子化の3つの手法をシームレスに統合するQ-DiTを考案した。
ImageNetデータセットの大規模な実験は、提案したQ-DiTの有効性を示す。
具体的には、 ImageNet 256x256 上で DiT-XL/2 を W8A8 に量子化する際、Q-DiT はベースラインと比較して FID を 1.26 削減する。
W4A8設定の下では、画像生成の忠実度を維持し、FIDの限界増加のみを示し、拡散トランスフォーマーの効率的で高品質な量子化のための新しいベンチマークを設定する。
コードは \href{https://github.com/Juanerx/Q-DiT}{https://github.com/Juanerx/Q-DiT} で公開されている。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers [2.0862654518798034]
本稿では,視覚変換器のための分散親和性・外乱性を考慮したポストトレーニング量子化手法を提案する。
DopQ-ViTは、現在の量子化器の非効率性を分析し、TanQと呼ばれる分布に優しいタン量子化器を導入する。
DopQ-ViTは広範囲に検証され、量子化モデルの性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-06T16:40:04Z) - PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。
PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文 参考訳(メタデータ) (2024-05-25T02:02:08Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Temporal Dynamic Quantization for Diffusion Models [18.184163233551292]
本稿では,時間ステップ情報に基づいて量子化間隔を動的に調整する新しい量子化手法を提案する。
従来の動的量子化手法とは異なり、本手法は推論時に計算オーバーヘッドを伴わない。
実験により,様々なデータセットにまたがる量子拡散モデルにより,出力品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-06-04T09:49:43Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。