論文の概要: DiRotQ: Rotation-Aware Quantization for 4-bit Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.16732v1
- Date: Sat, 16 May 2026 00:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.334608
- Title: DiRotQ: Rotation-Aware Quantization for 4-bit Diffusion Transformers
- Title(参考訳): DiRotQ: 4ビット拡散変換器の回転認識量子化
- Authors: Sayeh Sharify, Mahsa Salmani, Hesham Mostafa,
- Abstract要約: Diffusion Transformer (DiTs) は最先端の画像生成品質を実現するが、推論時にかなりのメモリと計算コストを発生させる。
平滑化法、混合精度法、回転法、低ランク残差法などの既存の手法は、この問題を部分的に緩和するが、それでもFP16/BF16の性能に顕著なギャップを残している。
本稿では、回転認識型アクティベーション量子化による劣化を緩和するW4A4 PTQフレームワークであるDiRotQを紹介する。
- 参考スコア(独自算出の注目度): 3.0583214514538084
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion Transformers (DiTs) achieve state-of-the-art image generation quality but incur substantial memory and computational costs at inference. While aggressive Post-Training Quantization (PTQ) to 4-bit precision offers significant efficiency gains, it typically results in severe quality degradation. Existing approaches, including smoothing-based methods, mixed-precision schemes, rotation techniques, and low-rank residual methods, partially mitigate this issue but still leave a noticeable gap to FP16/BF16 performance. In this work, we introduce DiRotQ, a W4A4 PTQ framework that mitigates this degradation through rotation-aware activation quantization. DiRotQ identifies a low-rank subspace capturing dominant activation variance via Principal Component Analysis (PCA), preserving coefficients in this subspace at higher precision while quantizing the remaining components to 4-bit. Activations are rotated into the PCA basis at inference time using calibration-derived orthogonal transformations, while the inverse rotation is fused into the layer weights offline. Combined with GPTQ-based weight quantization, DiRotQ achieves an FID (lower is better) of 15.9 and PSNR (higher is better) of 19.1 dB on PixArt-Σ over the MJHQ-30K dataset, outperforming the prior state-of-the-art SVDQuant (FID 18.9, PSNR 17.6) under the same INT W4A4 setting. Beyond standard metrics, we introduce a VLM-as-a-Judge evaluation protocol for diffusion model quantization, the first such evaluation in this setting, providing a more holistic assessment of perceptual quality and prompt alignment under aggressive compression. On the systems side, we implement a Triton-based custom kernel to enable efficient end-to-end inference, reducing memory usage of the 12B FLUX.1-dev model by 2.1x and delivering 2.3x speedup over the BF16 baseline, on a 24 GB RTX 4090 GPU.
- Abstract(参考訳): Diffusion Transformer (DiTs) は最先端の画像生成品質を実現するが、推論時にかなりのメモリと計算コストを発生させる。
攻撃的なポストトレーニング量子化(PTQ)から4ビットの精度は、大きな効率向上をもたらすが、通常は深刻な品質劣化をもたらす。
平滑化法、混合精度法、回転法、低ランク残差法などの既存の手法は、この問題を部分的に緩和するが、それでもFP16/BF16の性能に顕著なギャップを残している。
本稿では,この劣化を緩和するW4A4 PTQフレームワークであるDiRotQを紹介する。
DiRotQは、主成分分析(PCA)によって支配的な活性化分散を捉え、残りの成分を4ビットに量子化しながら、この部分空間の係数を高い精度で保存する。
活性化はキャリブレーション由来の直交変換を用いて推論時間にPCAベースに回転し、逆回転は層重みに融合する。
GPTQベースの重み量子化と組み合わせて、DiRotQは、MJHQ-30Kデータセット上でPixArt-Σ上の19.1dBのFID(より低くなる)とPSNR(高くなる)を達成し、同じINT W4A4設定の下で従来のSVDQuant(FID 18.9, PSNR 17.6)よりも優れている。
本稿では,拡散モデル量子化のためのVLM-as-a-Judge評価プロトコルを導入する。
システム側では、Tritonベースのカスタムカーネルを実装し、効率的なエンドツーエンド推論を可能にし、12B FLUX.1-devモデルのメモリ使用量を2.1倍削減し、24GB RTX 4090 GPUでBF16ベースライン上で2.3倍のスピードアップを提供する。
関連論文リスト
- LoRaQ: Optimized Low Rank Approximation for 4-bit Quantization [39.25504627568235]
トレーニング後の量子化(PTQ)は、リソース制約のあるハードウェアに大規模な拡散トランスフォーマーをデプロイするために不可欠である。
LoRaQ (Low-Rank Approximated Quantization) は、量子化誤差補償を最適化する単純なデータフリーキャリブレーション手法である。
Pixart-$とSANAのネイティブ実装において、LoRaQが最先端のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-04-20T11:37:10Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。
本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。
ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-18T22:01:55Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。