論文の概要: Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.21591v1
- Date: Tue, 27 May 2025 13:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.193383
- Title: Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning
- Title(参考訳): 拡散モデルのための4ビットFP量子化のパイオニア化:混合符号量子化と時間認識微細チューニング
- Authors: Maosen Zhao, Pengtao Chen, Chong Yu, Yan Wen, Xudong Tan, Tao Chen,
- Abstract要約: モデル量子化はウェイトとアクティベーションのビット幅を減らし、メモリ効率と推論速度を改善する。
既存の方法は、主に整数量子化と後学習量子化の微調整に基づいており、矛盾しない性能に悩まされている。
本稿では、まずモデル量子化に符号なしFP量子化を導入し、時間ステップ対応のLoRAとデノナイジング・ファクター損失アライメントを併用する混合符号浮動小数点量子化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.145862114439831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model quantization reduces the bit-width of weights and activations, improving memory efficiency and inference speed in diffusion models. However, achieving 4-bit quantization remains challenging. Existing methods, primarily based on integer quantization and post-training quantization fine-tuning, struggle with inconsistent performance. Inspired by the success of floating-point (FP) quantization in large language models, we explore low-bit FP quantization for diffusion models and identify key challenges: the failure of signed FP quantization to handle asymmetric activation distributions, the insufficient consideration of temporal complexity in the denoising process during fine-tuning, and the misalignment between fine-tuning loss and quantization error. To address these challenges, we propose the mixup-sign floating-point quantization (MSFP) framework, first introducing unsigned FP quantization in model quantization, along with timestep-aware LoRA (TALoRA) and denoising-factor loss alignment (DFA), which ensure precise and stable fine-tuning. Extensive experiments show that we are the first to achieve superior performance in 4-bit FP quantization for diffusion models, outperforming existing PTQ fine-tuning methods in 4-bit INT quantization.
- Abstract(参考訳): モデル量子化はウェイトとアクティベーションのビット幅を減らし、拡散モデルにおけるメモリ効率と推論速度を改善する。
しかし、4ビットの量子化は依然として困難である。
既存の方法は、主に整数量子化と後学習量子化の微調整に基づいており、矛盾しない性能に悩まされている。
大規模言語モデルにおける浮動小数点量子化(FP)の成功に触発されて、拡散モデルに対する低ビットFP量子化を探求し、非対称なアクティベーション分布を扱うための符号付きFP量子化の失敗、微調整中の復調過程における時間的複雑さの考慮不足、微調整損失と量子化誤差の相違など、主要な課題を特定する。
これらの課題に対処するために、まずモデル量子化に符号なしFP量子化を導入し、正確な微調整を確実にするための時間ステップ対応LoRA(TALoRA)とデノナイジング・ファクター損失アライメント(DFA)とともにミキサップサイン浮動小数点量子化(MSFP)フレームワークを提案する。
4ビットのINT量子化において、既存のPTQ微調整法よりも優れており、4ビットのFP量子化において、我々は初めて優れた性能を達成した。
関連論文リスト
- MergeQuant: Accurate 4-bit Static Quantization of Large Language Models by Channel-wise Calibration [23.752021919501207]
本稿では,チャネルごとの静的量子化フレームワークであるMergeQuantを提案する。
MergeQuantは、量子化ステップマイグレーション(QSM)メソッドを通じて、チャネルごとの量子化ステップと対応するスケーリングと線形マッピングを統合する。
Llama-2-7Bモデルでは、MergeQuantはFP16ベースラインと比較してデコードで最大1.77倍、エンドツーエンドで最大2.06倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-03-07T04:52:28Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - QNCD: Quantization Noise Correction for Diffusion Models [15.189069680672239]
拡散モデルは画像合成に革命をもたらし、品質と創造性の新しいベンチマークを設定した。
トレーニング後の量子化は、サンプルの品質を犠牲にしてサンプリングを加速するソリューションを提供する。
サンプリング過程を通して量子化ノイズを最小化することを目的とした量子化ノイズ補正方式(QNCD)を導入する。
論文 参考訳(メタデータ) (2024-03-28T04:24:56Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - QFT: Post-training quantization via fast joint finetuning of all degrees
of freedom [1.1744028458220428]
我々は、すべての量子化DoFの統一的な分析に向けて、HWを意識した方法で量子化ネットワークパラメータ化を再考する。
本手法はQFT(quantization-aware finetuning)と呼ばれ,SoTAと同等の4ビット重み量子化結果が得られる。
論文 参考訳(メタデータ) (2022-12-05T22:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。