論文の概要: FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2503.15465v1
- Date: Wed, 19 Mar 2025 17:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:08.568168
- Title: FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers
- Title(参考訳): FP4DiT:拡散変換器の効率的な浮動小数点量子化に向けて
- Authors: Ruichen Chen, Keith G. Mills, Di Niu,
- Abstract要約: トレーニング後の量子化は、トレーニングや微調整を必要とせず、負担を軽減するための軽量な方法である。
W4A6量子化を実現するために浮動小数点量子化を利用するPTQ法であるFP4DiTを導入する。
FP4DiTは整数ベースのPTQをW4A6およびW4A8精度で上回ることを示した。
- 参考スコア(独自算出の注目度): 15.324769026957641
- License:
- Abstract: Diffusion Models (DM) have revolutionized the text-to-image visual generation process. However, the large computational cost and model footprint of DMs hinders practical deployment, especially on edge devices. Post-training quantization (PTQ) is a lightweight method to alleviate these burdens without the need for training or fine-tuning. While recent DM PTQ methods achieve W4A8 on integer-based PTQ, two key limitations remain: First, while most existing DM PTQ methods evaluate on classical DMs like Stable Diffusion XL, 1.5 or earlier, which use convolutional U-Nets, newer Diffusion Transformer (DiT) models like the PixArt series, Hunyuan and others adopt fundamentally different transformer backbones to achieve superior image synthesis. Second, integer (INT) quantization is prevailing in DM PTQ but doesn't align well with the network weight and activation distribution, while Floating-Point Quantization (FPQ) is still under-investigated, yet it holds the potential to better align the weight and activation distributions in low-bit settings for DiT. In response, we introduce FP4DiT, a PTQ method that leverages FPQ to achieve W4A6 quantization. Specifically, we extend and generalize the Adaptive Rounding PTQ technique to adequately calibrate weight quantization for FPQ and demonstrate that DiT activations depend on input patch data, necessitating robust online activation quantization techniques. Experimental results demonstrate that FP4DiT outperforms integer-based PTQ at W4A6 and W4A8 precision and generates convincing visual content on PixArt-$\alpha$, PixArt-$\Sigma$ and Hunyuan in terms of several T2I metrics such as HPSv2 and CLIP.
- Abstract(参考訳): 拡散モデル(DM)はテキストから画像への視覚生成プロセスに革命をもたらした。
しかし、大規模な計算コストとDMのモデルフットプリントは、特にエッジデバイスへの実践的な展開を妨げる。
ポストトレーニング量子化(PTQ)は、トレーニングや微調整を必要とせずにこれらの負担を軽減する軽量な方法である。
最近のDM PTQ法は整数ベースのPTQでW4A8を達成する一方、既存のDM PTQ法のほとんどは安定拡散XLや1.5以上の古典的DMで評価されている。
第二に、整数(INT)量子化はDM PTQで普及しているが、ネットワークの重みとアクティベーション分布とよく一致しないが、浮動小数点量子化(FPQ)はまだ未定だが、DiTの低ビット設定での重みとアクティベーション分布をより良く整合させる可能性を持っている。
これに対し、FPQを利用してW4A6量子化を実現するPTQ法であるFP4DiTを導入する。
具体的には、FPQの重み量子化を適切に調整するためにAdaptive Rounding PTQ技術を拡張し、一般化し、DiTアクティベーションが入力パッチデータに依存し、ロバストなオンラインアクティベーション量子化技術を必要とすることを示す。
FP4DiTは、W4A6とW4A8の精度で整数ベースのPTQを上回り、HPSv2やCLIPなどのT2I指標でPixArt-$\alpha$, PixArt-$\Sigma$, Hunyuanの視覚的内容を生成することを示した。
関連論文リスト
- PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers [45.762142897697366]
ポストトレーニング量子化(PTQ)は有望なソリューションとして登場し、事前訓練されたモデルに対するモデル圧縮と高速化推論を可能にする。
DiT量子化の研究は依然として不十分であり、既存のPTQフレームワークは偏りのある量子化に悩まされがちである。
入力チャネル間での重みとアクティベーションの有意な分散を扱うための自動量子化粒度割当と、タイムステップとサンプルの両方にわたるアクティベーション変化を適応的にキャプチャする標本ワイド動的アクティベーション量子化という、2つの重要な手法をシームレスに統合する新しいアプローチであるQ-DiTを提案する。
論文 参考訳(メタデータ) (2024-06-25T07:57:27Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization [10.307268005739202]
拡散変換器(DiT)は、最近、優れた視覚生成能力に対して大きな注目を集めている。
DiTは高いパラメータカウントと実装コストを持ち、携帯電話などのリソース制限されたデバイスでの使用を著しく制限している。
4ビット浮動小数点(FP)の精度をDiT推論の重みとアクティベーションの両面に利用した,効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:56:11Z) - PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。
PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文 参考訳(メタデータ) (2024-05-25T02:02:08Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。