論文の概要: Q&C: When Quantization Meets Cache in Efficient Image Generation
- arxiv url: http://arxiv.org/abs/2503.02508v1
- Date: Tue, 04 Mar 2025 11:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:15:04.116581
- Title: Q&C: When Quantization Meets Cache in Efficient Image Generation
- Title(参考訳): Q&C: 効率的な画像生成におけるキャッシュの量子化
- Authors: Xin Ding, Xin Li, Haotong Qin, Zhibo Chen,
- Abstract要約: 拡散変換器(DiT)の量子化とキャッシュ機構の組み合わせは簡単ではない。
本稿では,上記の課題に対処してハイブリッド加速法を提案する。
競合生成能力を保ちながら,DiTsを12.7倍高速化した。
- 参考スコア(独自算出の注目度): 24.783679431414686
- License:
- Abstract: Quantization and cache mechanisms are typically applied individually for efficient Diffusion Transformers (DiTs), each demonstrating notable potential for acceleration. However, the promoting effect of combining the two mechanisms on efficient generation remains under-explored. Through empirical investigation, we find that the combination of quantization and cache mechanisms for DiT is not straightforward, and two key challenges lead to severe catastrophic performance degradation: (i) the sample efficacy of calibration datasets in post-training quantization (PTQ) is significantly eliminated by cache operation; (ii) the combination of the above mechanisms introduces more severe exposure bias within sampling distribution, resulting in amplified error accumulation in the image generation process. In this work, we take advantage of these two acceleration mechanisms and propose a hybrid acceleration method by tackling the above challenges, aiming to further improve the efficiency of DiTs while maintaining excellent generation capability. Concretely, a temporal-aware parallel clustering (TAP) is designed to dynamically improve the sample selection efficacy for the calibration within PTQ for different diffusion steps. A variance compensation (VC) strategy is derived to correct the sampling distribution. It mitigates exposure bias through an adaptive correction factor generation. Extensive experiments have shown that our method has accelerated DiTs by 12.7x while preserving competitive generation capability. The code will be available at https://github.com/xinding-sys/Quant-Cache.
- Abstract(参考訳): 量子化とキャッシュ機構は、一般的に効率の良い拡散変換器(DiT)に個別に適用され、それぞれが加速の顕著な可能性を示している。
しかし、この2つのメカニズムの組み合わせによる効率的な生成の促進効果は未解明のままである。
実証的な調査により、DiTの量子化とキャッシュ機構の組み合わせは簡単ではなく、2つの重要な課題が破滅的な性能劣化に繋がることがわかった。
i) キャッシュ操作により,PTQ(後学習量子化)における校正データセットのサンプルの有効性が著しく低下する。
(II) 上記機構の組み合わせはサンプリング分布内でより厳しい露光バイアスを生じさせ, 画像生成過程における誤差の増大を増幅する。
本研究では,これらの2つの加速機構を活用し,これらの課題に対処し,優れた生成能力を維持しつつ,DiTの効率をさらに向上することを目的としたハイブリッド加速手法を提案する。
具体的には, 時間対応並列クラスタリング (TAP) は, 異なる拡散ステップに対するPTQ内キャリブレーションにおける試料選択効率を動的に向上するように設計されている。
分散補償(VC)戦略を導出し、サンプリング分布を補正する。
適応補正係数生成による露光バイアスを緩和する。
大規模実験により, 競合生成能力を保ちながらDiTsを12.7倍加速したことが明らかとなった。
コードはhttps://github.com/xinding-sys/Quant-Cacheで入手できる。
関連論文リスト
- TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers [3.389132862174821]
モデルの量子化は、より低い精度で重みとアクティベーション値を表す。
時間群量子化(TGQ)は、アクティベーションの時間的変動に起因する量子化誤差を低減するために提案される。
提案アルゴリズムは,W8A8でFIDが0.29増加し,元の完全精度モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-06T13:14:52Z) - MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。
重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。
時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文 参考訳(メタデータ) (2024-12-16T08:31:55Z) - Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion [9.8078769718432]
安定拡散モデルのための効率的な量子化フレームワークを提案する。
本手法では,キャリブレーションと推論の両プロセスの整合性に対処するシリアル-パラレルキャリブレーションパイプラインを特徴とする。
W4A8量子化設定では、分布類似性と視覚類似性の両方を45%-60%向上させる。
論文 参考訳(メタデータ) (2024-12-09T17:00:20Z) - Scalable and Effective Negative Sample Generation for Hyperedge Prediction [55.9298019975967]
ハイパーエッジ予測は、Webベースのアプリケーションにおける複雑なマルチエンタリティ相互作用を理解するために不可欠である。
従来の手法では、正と負のインスタンスの不均衡により、高品質な負のサンプルを生成するのが困難であることが多い。
本稿では,これらの課題に対処するために拡散モデルを利用するハイパーエッジ予測(SEHP)フレームワークのスケーラブルで効果的な負のサンプル生成について述べる。
論文 参考訳(メタデータ) (2024-11-19T09:16:25Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Accelerating Score-based Generative Models with Preconditioned Diffusion
Sampling [36.02321871608158]
本稿では,行列プレコンディショニングを利用して問題を緩和するPDS法を提案する。
PDSは、合成品質を維持しながら、棚外のSGMを継続的に加速する。
特に、PSDはより難しい高解像度(1024x1024)の画像生成で最大29倍加速することができる。
論文 参考訳(メタデータ) (2022-07-05T17:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。