論文の概要: ConvRot: Rotation-Based Plug-and-Play 4-bit Quantization for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2512.03673v1
- Date: Wed, 03 Dec 2025 11:02:16 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:08:59.529499
- Title: ConvRot: Rotation-Based Plug-and-Play 4-bit Quantization for Diffusion Transformers
- Title(参考訳): ConvRot: 拡散変換器のための回転型プラグアンドプレイ4ビット量子化
- Authors: Feice Huang, Zuliang Han, Xing Zhou, Yihuang Chen, Lifei Zhu, Haoqian Wang,
- Abstract要約: モデルのサイズが大きくなるにつれて、メモリフットプリントの増加と推論のレイテンシは、実用的なデプロイメントにおいて大きな課題となる。
大規模言語モデル(LLMs)における最近の研究は、回転に基づく手法が外周を滑らかにし、4ビットの量子化を可能にすることを示している。
本稿では,正則アダマール変換(RHT)を利用したグループワイド回転に基づく量子化手法であるConvRotを提案する。
- 参考スコア(独自算出の注目度): 21.65616995056907
- License:
- Abstract: Diffusion transformers have demonstrated strong capabilities in generating high-quality images. However, as model size increases, the growing memory footprint and inference latency pose significant challenges for practical deployment. Recent studies in large language models (LLMs) show that rotation-based techniques can smooth outliers and enable 4-bit quantization, but these approaches often incur substantial overhead and struggle with row-wise outliers in diffusion transformers. To address these challenges, we propose ConvRot, a group-wise rotation-based quantization method that leverages regular Hadamard transform (RHT) to suppress both row-wise and column-wise outliers while reducing complexity from quadratic to linear. Building on this, we design ConvLinear4bit, a plug-and-play module that integrates rotation, quantization, GEMM, and dequantization, enabling W4A4 inference without retraining and preserving visual quality. Experiments on FLUX.1-dev demonstrate a 2.26$\times$ speedup and 4.05$\times$ memory reduction while maintaining image fidelity. To our knowledge, this is the first application of rotation-based quantization for plug-and-play W4A4 inference in diffusion transformers.
- Abstract(参考訳): 拡散変換器は高品質な画像を生成する強力な能力を示している。
しかし、モデルのサイズが大きくなるにつれて、メモリフットプリントの増加と推論のレイテンシは、実用的なデプロイメントにおいて大きな課題となる。
大規模言語モデル(LLMs)における最近の研究は、回転に基づく手法が外周を滑らかにし、4ビットの量子化を可能にしていることを示しているが、これらの手法はしばしばかなりのオーバーヘッドを発生させ、拡散変圧器の行方向外周と戦っている。
これらの課題に対処するために,正則アダマール変換(RHT)を利用したグループワイド回転に基づく量子化手法であるConvRotを提案する。
そこで我々は, 回転, 量子化, GEMM, 量子化を統合し, W4A4推論を可能にするプラグイン・アンド・プレイモジュールであるConvLinear4bitを設計した。
FLUX.1-devの実験では、画像の忠実さを維持しながら2.26$\times$スピードアップと4.05$\times$メモリ削減が示されている。
我々の知る限り、これは拡散変圧器におけるプラグアンドプレイW4A4推論に対する回転型量子化の最初の応用である。
関連論文リスト
- Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping [36.012101195384744]
Diffusion Transformer (DiT) は画像生成モデルを構築する上で好まれる選択肢となっている。
DiTは純粋に、大きな言語モデルのようなスケーラビリティに優れたDiTをレンダリングするトランスフォーマーブロックのスタックで構成されている。
本稿では,これらの課題に対処するため,拡散変換に適したポストトレーニング量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T05:21:04Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation [23.99995355561429]
ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。
本稿では、DiTモデルに特化したViDiT-Q(Video & Image Diffusion Transformer Quantization)を紹介する。
様々なテキスト・ツー・イメージ・ビデオモデルにおけるViDiT-Qの有効性を検証し,視覚的品質とメトリクスの劣化を無視してW8A8およびW4A8を達成する。
論文 参考訳(メタデータ) (2024-06-04T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。