論文の概要: MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation
- arxiv url: http://arxiv.org/abs/2507.04290v1
- Date: Sun, 06 Jul 2025 08:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.103976
- Title: MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation
- Title(参考訳): MPQ-DMv2:時空蒸留による低ビット拡散モデルに対するフレキシブル残留混合精度量子化
- Authors: Weilun Feng, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Boyu Diao, Fuzhen Zhuang, Michele Magno, Yongjun Xu, Yingli Tian, Tingwen Huang,
- Abstract要約: 我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
- 参考スコア(独自算出の注目度): 74.34220141721231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated remarkable performance on vision generation tasks. However, the high computational complexity hinders its wide application on edge devices. Quantization has emerged as a promising technique for inference acceleration and memory reduction. However, existing quantization methods do not generalize well under extremely low-bit (2-4 bit) quantization. Directly applying these methods will cause severe performance degradation. We identify that the existing quantization framework suffers from the outlier-unfriendly quantizer design, suboptimal initialization, and optimization strategy. We present MPQ-DMv2, an improved \textbf{M}ixed \textbf{P}recision \textbf{Q}uantization framework for extremely low-bit \textbf{D}iffusion \textbf{M}odels. For the quantization perspective, the imbalanced distribution caused by salient outliers is quantization-unfriendly for uniform quantizer. We propose \textit{Flexible Z-Order Residual Mixed Quantization} that utilizes an efficient binary residual branch for flexible quant steps to handle salient error. For the optimization framework, we theoretically analyzed the convergence and optimality of the LoRA module and propose \textit{Object-Oriented Low-Rank Initialization} to use prior quantization error for informative initialization. We then propose \textit{Memory-based Temporal Relation Distillation} to construct an online time-aware pixel queue for long-term denoising temporal information distillation, which ensures the overall temporal consistency between quantized and full-precision model. Comprehensive experiments on various generation tasks show that our MPQ-DMv2 surpasses current SOTA methods by a great margin on different architectures, especially under extremely low-bit widths.
- Abstract(参考訳): 拡散モデルは視覚生成タスクにおいて顕著な性能を示した。
しかし、高い計算複雑性はエッジデバイスへの広範な応用を妨げる。
量子化は推論アクセラレーションとメモリ削減のための有望な技術として登場した。
しかし、既存の量子化法は極低ビット(2-4ビット)量子化ではうまく一般化しない。
これらの手法を直接適用すると、性能が著しく低下する。
既存の量子化フレームワークは、外周不フレンドリな量子化器の設計、準最適初期化、最適化戦略に悩まされている。
極低ビットの \textbf{D}iffusion \textbf{M}odels に対して,改良された \textbf{M}ixed \textbf{P}recision \textbf{Q}uantization フレームワーク MPQ-DMv2 を提案する。
量子化の観点からは、有意なアウトリーチによる不均衡分布は均一な量子化器には不都合である。
本稿では、効率的な2次残差分枝を用いて、フレキシブルな量子ステップを用いて有意な誤差を処理できる「textit{Flexible Z-Order Residual Mixed Quantization」を提案する。
最適化フレームワークとして,LoRAモジュールの収束度と最適度を理論的に解析し,事前量子化誤差を情報化初期化に用いるために,textit{Object-Oriented Low-Rank Initialization}を提案する。
次に, 時間的情報蒸留を長期に分けたオンライン時間対応の画素列を構築するために, 時間的関係蒸留法を提案する。
様々な生成タスクに関する総合的な実験により、MPQ-DMv2は、特に極低ビット幅の異なるアーキテクチャにおいて、現在のSOTA手法をはるかに上回っていることが示された。
関連論文リスト
- LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Text-to-Image Generation [34.14174796390669]
トレーニング後の量子化(PTQ)は、メモリ使用量を減らすとともに、推論を高速化する有望なソリューションである。
既存のPTQ手法は、極端に低ビット設定下での厳しい性能劣化に悩まされる。
本稿では,効率的なPTQフレームワークであるLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。
重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。
時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文 参考訳(メタデータ) (2024-12-16T08:31:55Z) - Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion [9.402892455344677]
安定拡散モデル(SDM)のための効率的な量子化フレームワークを提案する。
我々のフレームワークはトレーニングと推論の一貫性を同時に維持し、最適化の安定性を確保する。
本手法は,訓練時間を短縮した最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-09T17:00:20Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [37.007621357142725]
量子化は、推論を加速し、大きな言語モデルのメモリ消費を減らすために、実質的に採用されている。
本稿では、投機的復号化のための2つの相補的量子化スキームをシームレスに統合するQSPECと呼ばれる新しい量子化パラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - TMPQ-DM: Joint Timestep Reduction and Quantization Precision Selection for Efficient Diffusion Models [40.5153344875351]
我々はTMPQ-DMを導入し、タイムステップの削減と量子化を共同で最適化し、優れた性能・効率のトレードオフを実現する。
時間段階の削減のために、デノナイジング過程の非一様性に合わせた非一様グルーピングスキームを考案する。
量子化の観点では、最終的な生成性能に対するそれぞれの貢献に基づいて、異なる層に異なるビット幅を割り当てる、きめ細かいレイヤーワイズアプローチを採用する。
論文 参考訳(メタデータ) (2024-04-15T07:51:40Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。