論文の概要: MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation
- arxiv url: http://arxiv.org/abs/2507.04290v1
- Date: Sun, 06 Jul 2025 08:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.103976
- Title: MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation
- Title(参考訳): MPQ-DMv2:時空蒸留による低ビット拡散モデルに対するフレキシブル残留混合精度量子化
- Authors: Weilun Feng, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Boyu Diao, Fuzhen Zhuang, Michele Magno, Yongjun Xu, Yingli Tian, Tingwen Huang,
- Abstract要約: 我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
- 参考スコア(独自算出の注目度): 74.34220141721231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated remarkable performance on vision generation tasks. However, the high computational complexity hinders its wide application on edge devices. Quantization has emerged as a promising technique for inference acceleration and memory reduction. However, existing quantization methods do not generalize well under extremely low-bit (2-4 bit) quantization. Directly applying these methods will cause severe performance degradation. We identify that the existing quantization framework suffers from the outlier-unfriendly quantizer design, suboptimal initialization, and optimization strategy. We present MPQ-DMv2, an improved \textbf{M}ixed \textbf{P}recision \textbf{Q}uantization framework for extremely low-bit \textbf{D}iffusion \textbf{M}odels. For the quantization perspective, the imbalanced distribution caused by salient outliers is quantization-unfriendly for uniform quantizer. We propose \textit{Flexible Z-Order Residual Mixed Quantization} that utilizes an efficient binary residual branch for flexible quant steps to handle salient error. For the optimization framework, we theoretically analyzed the convergence and optimality of the LoRA module and propose \textit{Object-Oriented Low-Rank Initialization} to use prior quantization error for informative initialization. We then propose \textit{Memory-based Temporal Relation Distillation} to construct an online time-aware pixel queue for long-term denoising temporal information distillation, which ensures the overall temporal consistency between quantized and full-precision model. Comprehensive experiments on various generation tasks show that our MPQ-DMv2 surpasses current SOTA methods by a great margin on different architectures, especially under extremely low-bit widths.
- Abstract(参考訳): 拡散モデルは視覚生成タスクにおいて顕著な性能を示した。
しかし、高い計算複雑性はエッジデバイスへの広範な応用を妨げる。
量子化は推論アクセラレーションとメモリ削減のための有望な技術として登場した。
しかし、既存の量子化法は極低ビット(2-4ビット)量子化ではうまく一般化しない。
これらの手法を直接適用すると、性能が著しく低下する。
既存の量子化フレームワークは、外周不フレンドリな量子化器の設計、準最適初期化、最適化戦略に悩まされている。
極低ビットの \textbf{D}iffusion \textbf{M}odels に対して,改良された \textbf{M}ixed \textbf{P}recision \textbf{Q}uantization フレームワーク MPQ-DMv2 を提案する。
量子化の観点からは、有意なアウトリーチによる不均衡分布は均一な量子化器には不都合である。
本稿では、効率的な2次残差分枝を用いて、フレキシブルな量子ステップを用いて有意な誤差を処理できる「textit{Flexible Z-Order Residual Mixed Quantization」を提案する。
最適化フレームワークとして,LoRAモジュールの収束度と最適度を理論的に解析し,事前量子化誤差を情報化初期化に用いるために,textit{Object-Oriented Low-Rank Initialization}を提案する。
次に, 時間的情報蒸留を長期に分けたオンライン時間対応の画素列を構築するために, 時間的関係蒸留法を提案する。
様々な生成タスクに関する総合的な実験により、MPQ-DMv2は、特に極低ビット幅の異なるアーキテクチャにおいて、現在のSOTA手法をはるかに上回っていることが示された。
関連論文リスト
- MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。
重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。
時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文 参考訳(メタデータ) (2024-12-16T08:31:55Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - TMPQ-DM: Joint Timestep Reduction and Quantization Precision Selection for Efficient Diffusion Models [40.5153344875351]
我々はTMPQ-DMを導入し、タイムステップの削減と量子化を共同で最適化し、優れた性能・効率のトレードオフを実現する。
時間段階の削減のために、デノナイジング過程の非一様性に合わせた非一様グルーピングスキームを考案する。
量子化の観点では、最終的な生成性能に対するそれぞれの貢献に基づいて、異なる層に異なるビット幅を割り当てる、きめ細かいレイヤーワイズアプローチを採用する。
論文 参考訳(メタデータ) (2024-04-15T07:51:40Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。