Fugu-MT 論文翻訳(概要): Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers

論文の概要: Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers

arxiv url: http://arxiv.org/abs/2406.17343v2
Date: Tue, 19 Nov 2024 09:58:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.111685
Title: Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers
Title（参考訳）: Q-DiT:拡散変圧器の高精度後量子化
Authors: Lei Chen, Yuan Meng, Chen Tang, Xinzhu Ma, Jingyan Jiang, Xin Wang, Zhi Wang, Wenwu Zhu,
Abstract要約: ポストトレーニング量子化(PTQ)は有望なソリューションとして登場し、事前訓練されたモデルに対するモデル圧縮と高速化推論を可能にする。 DiT量子化の研究は依然として不十分であり、既存のPTQフレームワークは偏りのある量子化に悩まされがちである。入力チャネル間での重みとアクティベーションの有意な分散を扱うための自動量子化粒度割当と、タイムステップとサンプルの両方にわたるアクティベーション変化を適応的にキャプチャする標本ワイド動的アクティベーション量子化という、2つの重要な手法をシームレスに統合する新しいアプローチであるQ-DiTを提案する。
参考スコア（独自算出の注目度）: 45.762142897697366
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advancements in diffusion models, particularly the architectural transformation from UNet-based models to Diffusion Transformers (DiTs), significantly improve the quality and scalability of image and video generation. However, despite their impressive capabilities, the substantial computational costs of these large-scale models pose significant challenges for real-world deployment. Post-Training Quantization (PTQ) emerges as a promising solution, enabling model compression and accelerated inference for pretrained models, without the costly retraining. However, research on DiT quantization remains sparse, and existing PTQ frameworks, primarily designed for traditional diffusion models, tend to suffer from biased quantization, leading to notable performance degradation. In this work, we identify that DiTs typically exhibit significant spatial variance in both weights and activations, along with temporal variance in activations. To address these issues, we propose Q-DiT, a novel approach that seamlessly integrates two key techniques: automatic quantization granularity allocation to handle the significant variance of weights and activations across input channels, and sample-wise dynamic activation quantization to adaptively capture activation changes across both timesteps and samples. Extensive experiments conducted on ImageNet and VBench demonstrate the effectiveness of the proposed Q-DiT. Specifically, when quantizing DiT-XL/2 to W6A8 on ImageNet ($256 \times 256$), Q-DiT achieves a remarkable reduction in FID by 1.09 compared to the baseline. Under the more challenging W4A8 setting, it maintains high fidelity in image and video generation, establishing a new benchmark for efficient, high-quality quantization in DiTs. Code is available at \href{https://github.com/Juanerx/Q-DiT}{https://github.com/Juanerx/Q-DiT}.
Abstract（参考訳）: 拡散モデル、特にUNetベースのモデルから拡散変換器(DiT)へのアーキテクチャ変換の進歩により、画像およびビデオ生成の品質とスケーラビリティが大幅に向上した。しかし、その優れた能力にもかかわらず、これらの大規模モデルの相当な計算コストは、現実世界の展開に重大な課題をもたらす。ポストトレーニング量子化(PTQ)は有望なソリューションとして登場し、コストのかかる再トレーニングなしに、事前トレーニングされたモデルに対するモデル圧縮と高速化推論を可能にする。しかし、DiT量子化の研究は依然として不十分であり、従来の拡散モデル用に設計された既存のPTQフレームワークは偏りのある量子化に悩まされ、顕著な性能劣化をもたらす。本研究では,重みとアクティベーションの両面での空間的ばらつきと,アクティベーションの時間的ばらつきが典型的に有意であることを示す。これらの問題に対処するため、我々は、入力チャネル間の重みとアクティベーションの大きなばらつきを扱うための自動量子化粒度割当と、タイムステップとサンプルの両方にわたるアクティベーション変化を適応的に捉えるサンプルワイド動的アクティベーション量子化という、2つの重要な手法をシームレスに統合する新しいアプローチであるQ-DiTを提案する。 ImageNetとVBenchで行った大規模な実験は、提案したQ-DiTの有効性を実証している。具体的には、ImageNet(256 \times 256$)上でDiT-XL/2をW6A8に量子化する際、Q-DiTはベースラインと比較してFIDを1.09削減する。より困難なW4A8設定の下では、画像およびビデオ生成の忠実度を維持し、DiTの効率的で高品質な量子化のための新しいベンチマークを確立する。コードは \href{https://github.com/Juanerx/Q-DiT}{https://github.com/Juanerx/Q-DiT} で公開されている。

関連論文リスト

AdaTSQ: Pushing the Pareto Frontier of Diffusion Transformers via Temporal-Sensitivity Quantization [22.45250803905198]
拡散変換器(DiT)は、高忠実度画像とビデオ生成のための最先端のバックボーンとして登場した。後学習量子化(PTQ)は、大規模言語モデル(LLM)に有効であることが証明された。本稿では,DiTの時間感度を利用して効率と品質のフロンティアを推し進める新しいPTQフレームワークであるAdaTSQを提案する。
論文参考訳（メタデータ） (2026-02-10T15:23:18Z)
LSGQuant: Layer-Sensitivity Guided Quantization for One-Step Diffusion Real-World Video Super-Resolution [52.627063566555194]
本稿では,一段階拡散に基づく実世界VSRのための層感度誘導量子化手法LSGQuantを紹介する。本手法は,ビデオトークンのアクティベーションに適合する動的レンジ適応量子化器 (DRAQ) を備える。提案手法は,完全精度のオリジンモデルに対してほぼ性能が良く,既存の量子化手法をはるかに上回っている。
論文参考訳（メタデータ） (2026-02-03T06:53:19Z)
LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Text-to-Image Generation [34.14174796390669]
トレーニング後の量子化(PTQ)は、メモリ使用量を減らすとともに、推論を高速化する有望なソリューションである。既存のPTQ手法は、極端に低ビット設定下での厳しい性能劣化に悩まされる。本稿では,効率的なPTQフレームワークであるLRQ-DiTを提案する。
論文参考訳（メタデータ） (2025-08-05T14:16:11Z)
DMQ: Dissecting Outliers of Diffusion Models for Post-Training Quantization [29.066284789131494]
最近のトレーニング後の量子化法は、外乱を無視し、低ビット幅での劣化性能をもたらす。本稿では,Learned Equivalent ScalingとチャネルワイドのPower-of-Two Scalingを組み合わせたDMQを提案する。提案手法は,特に低ビット幅において,既存の処理性能を著しく向上させる。
論文参考訳（メタデータ） (2025-07-17T09:15:29Z)
FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文参考訳（メタデータ） (2025-06-13T07:57:38Z)
TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers [3.389132862174821]
モデルの量子化は、より低い精度で重みとアクティベーション値を表す。時間群量子化(TGQ)は、アクティベーションの時間的変動に起因する量子化誤差を低減するために提案される。提案アルゴリズムは,W8A8でFIDが0.29増加し,元の完全精度モデルに匹敵する性能を実現する。
論文参考訳（メタデータ） (2025-02-06T13:14:52Z)
TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-12-21T16:57:54Z)
PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文参考訳（メタデータ） (2024-11-26T04:49:42Z)
DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers [2.0862654518798034]
本稿では,視覚変換器のための分散親和性・外乱性を考慮したポストトレーニング量子化手法を提案する。 DopQ-ViTは、現在の量子化器の非効率性を分析し、TanQと呼ばれる分布に優しいタン量子化器を導入する。 DopQ-ViTは広範囲に検証され、量子化モデルの性能が大幅に向上した。
論文参考訳（メタデータ） (2024-08-06T16:40:04Z)
ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation [23.99995355561429]
ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。本稿では、DiTモデルに特化したViDiT-Q(Video & Image Diffusion Transformer Quantization)を紹介する。様々なテキスト・ツー・イメージ・ビデオモデルにおけるViDiT-Qの有効性を検証し,視覚的品質とメトリクスの劣化を無視してW8A8およびW4A8を達成する。
論文参考訳（メタデータ） (2024-06-04T17:57:10Z)
PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。 PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文参考訳（メタデータ） (2024-05-25T02:02:08Z)
Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文参考訳（メタデータ） (2023-11-10T09:10:09Z)
EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文参考訳（メタデータ） (2023-10-05T02:51:53Z)
Temporal Dynamic Quantization for Diffusion Models [18.184163233551292]
本稿では,時間ステップ情報に基づいて量子化間隔を動的に調整する新しい量子化手法を提案する。従来の動的量子化手法とは異なり、本手法は推論時に計算オーバーヘッドを伴わない。実験により,様々なデータセットにまたがる量子拡散モデルにより,出力品質が大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-06-04T09:49:43Z)
Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文参考訳（メタデータ） (2023-02-08T19:38:59Z)
RepQ-ViT: Scale Reparameterization for Post-Training Quantization of Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。 RepQ-ViTは量子化と推論プロセスを分離する。既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文参考訳（メタデータ） (2022-12-16T02:52:37Z)
Vertical Layering of Quantized Neural Networks for Heterogeneous Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文参考訳（メタデータ） (2022-12-10T15:57:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。