論文の概要: RobuQ: Pushing DiTs to W1.58A2 via Robust Activation Quantization
- arxiv url: http://arxiv.org/abs/2509.23582v1
- Date: Sun, 28 Sep 2025 02:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.303482
- Title: RobuQ: Pushing DiTs to W1.58A2 via Robust Activation Quantization
- Title(参考訳): RobuQ:ロバスト活性化量子化によるDiTをW1.58A2にプッシュ
- Authors: Kaicheng Yang, Xun Zhang, Haotong Qin, Yucheng Lin, Kaisen Yang, Xianglong Yan, Yulun Zhang,
- Abstract要約: Diffusion Transformer (DiT) は画像生成の強力なバックボーンとして登場した。
彼らの実践的な展開は、相当な計算とメモリコストによって妨げられている。
本稿では,RobuQ という名称の DiT の体系的 QAT フレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.96616374712551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have recently emerged as a powerful backbone for image generation, demonstrating superior scalability and performance over U-Net architectures. However, their practical deployment is hindered by substantial computational and memory costs. While Quantization-Aware Training (QAT) has shown promise for U-Nets, its application to DiTs faces unique challenges, primarily due to the sensitivity and distributional complexity of activations. In this work, we identify activation quantization as the primary bottleneck for pushing DiTs to extremely low-bit settings. To address this, we propose a systematic QAT framework for DiTs, named RobuQ. We start by establishing a strong ternary weight (W1.58A4) DiT baseline. Building upon this, we propose RobustQuantizer to achieve robust activation quantization. Our theoretical analyses show that the Hadamard transform can convert unknown per-token distributions into per-token normal distributions, providing a strong foundation for this method. Furthermore, we propose AMPN, the first Activation-only Mixed-Precision Network pipeline for DiTs. This method applies ternary weights across the entire network while allocating different activation precisions to each layer to eliminate information bottlenecks. Through extensive experiments on unconditional and conditional image generation, our RobuQ framework achieves state-of-the-art performance for DiT quantization in sub-4-bit quantization configuration. To the best of our knowledge, RobuQ is the first achieving stable and competitive image generation on large datasets like ImageNet-1K with activations quantized to average 2 bits. The code and models will be available at https://github.com/racoonykc/RobuQ .
- Abstract(参考訳): Diffusion Transformer (DiT)は画像生成の強力なバックボーンとして最近登場し、U-Netアーキテクチャよりも優れたスケーラビリティと性能を示している。
しかし、それらの実践的な展開は、相当な計算コストとメモリコストによって妨げられている。
Quantization-Aware Training (QAT)は、U-Netsを約束しているが、DiTsへの適用は、主にアクティベーションの感度と分散の複雑さのために、ユニークな課題に直面している。
本研究では,DiTを極端に低ビット設定にプッシュする主なボトルネックとして,アクティベーション量子化を同定する。
そこで本稿では,RobuQ という DiT の体系的 QAT フレームワークを提案する。
まず、強い三元重(W1.58A4) DiTベースラインを確立することから始める。
これに基づいてロバスト量子化器を提案し,ロバスト量子化を実現する。
理論解析により,アダマール変換は未知のトーケンごとの正規分布に変換できることが示され,この手法の強力な基礎となる。
さらに, AMPNは, DiTのためのアクティベーションのみのMixed-Precision Networkパイプラインである。
本手法は,各層に異なるアクティベーション精度を割り当てながら,ネットワーク全体の3次重みを適用し,情報のボトルネックを解消する。
非条件および条件付き画像生成に関する広範な実験を通じて、我々のRobuQフレームワークは、サブ-4ビット量子化構成におけるDiT量子化の最先端性能を達成する。
私たちの知る限りでは、RobuQはImageNet-1Kのような大規模なデータセット上で、平均2ビットのアクティベーションを量子化して安定かつ競合的な画像生成を実現した初めての企業です。
コードとモデルはhttps://github.com/racoonykc/RobuQ.comで入手できる。
関連論文リスト
- Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers [45.762142897697366]
ポストトレーニング量子化(PTQ)は有望なソリューションとして登場し、事前訓練されたモデルに対するモデル圧縮と高速化推論を可能にする。
DiT量子化の研究は依然として不十分であり、既存のPTQフレームワークは偏りのある量子化に悩まされがちである。
入力チャネル間での重みとアクティベーションの有意な分散を扱うための自動量子化粒度割当と、タイムステップとサンプルの両方にわたるアクティベーション変化を適応的にキャプチャする標本ワイド動的アクティベーション量子化という、2つの重要な手法をシームレスに統合する新しいアプローチであるQ-DiTを提案する。
論文 参考訳(メタデータ) (2024-06-25T07:57:27Z) - HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization [10.307268005739202]
拡散変換器(DiT)は、最近、優れた視覚生成能力に対して大きな注目を集めている。
DiTは高いパラメータカウントと実装コストを持ち、携帯電話などのリソース制限されたデバイスでの使用を著しく制限している。
4ビット浮動小数点(FP)の精度をDiT推論の重みとアクティベーションの両面に利用した,効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:56:11Z) - PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。
PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文 参考訳(メタデータ) (2024-05-25T02:02:08Z) - Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution
Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。
DDTBは超低精度で優れた性能を示した。
例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文 参考訳(メタデータ) (2022-03-08T04:26:18Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。