論文の概要: ConvRot: Rotation-Based Plug-and-Play 4-bit Quantization for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2512.03673v1
- Date: Wed, 03 Dec 2025 11:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-04 20:02:55.258044
- Title: ConvRot: Rotation-Based Plug-and-Play 4-bit Quantization for Diffusion Transformers
- Title(参考訳): ConvRot: 拡散変換器のための回転型プラグアンドプレイ4ビット量子化
- Authors: Feice Huang, Zuliang Han, Xing Zhou, Yihuang Chen, Lifei Zhu, Haoqian Wang,
- Abstract要約: モデルのサイズが大きくなるにつれて、メモリフットプリントの増加と推論のレイテンシは、実用的なデプロイメントにおいて大きな課題となる。
大規模言語モデル(LLMs)における最近の研究は、回転に基づく手法が外周を滑らかにし、4ビットの量子化を可能にすることを示している。
本稿では,正則アダマール変換(RHT)を利用したグループワイド回転に基づく量子化手法であるConvRotを提案する。
- 参考スコア(独自算出の注目度): 21.65616995056907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion transformers have demonstrated strong capabilities in generating high-quality images. However, as model size increases, the growing memory footprint and inference latency pose significant challenges for practical deployment. Recent studies in large language models (LLMs) show that rotation-based techniques can smooth outliers and enable 4-bit quantization, but these approaches often incur substantial overhead and struggle with row-wise outliers in diffusion transformers. To address these challenges, we propose ConvRot, a group-wise rotation-based quantization method that leverages regular Hadamard transform (RHT) to suppress both row-wise and column-wise outliers while reducing complexity from quadratic to linear. Building on this, we design ConvLinear4bit, a plug-and-play module that integrates rotation, quantization, GEMM, and dequantization, enabling W4A4 inference without retraining and preserving visual quality. Experiments on FLUX.1-dev demonstrate a 2.26$\times$ speedup and 4.05$\times$ memory reduction while maintaining image fidelity. To our knowledge, this is the first application of rotation-based quantization for plug-and-play W4A4 inference in diffusion transformers.
- Abstract(参考訳): 拡散変換器は高品質な画像を生成する強力な能力を示している。
しかし、モデルのサイズが大きくなるにつれて、メモリフットプリントの増加と推論のレイテンシは、実用的なデプロイメントにおいて大きな課題となる。
大規模言語モデル(LLMs)における最近の研究は、回転に基づく手法が外周を滑らかにし、4ビットの量子化を可能にしていることを示しているが、これらの手法はしばしばかなりのオーバーヘッドを発生させ、拡散変圧器の行方向外周と戦っている。
これらの課題に対処するために,正則アダマール変換(RHT)を利用したグループワイド回転に基づく量子化手法であるConvRotを提案する。
そこで我々は, 回転, 量子化, GEMM, 量子化を統合し, W4A4推論を可能にするプラグイン・アンド・プレイモジュールであるConvLinear4bitを設計した。
FLUX.1-devの実験では、画像の忠実さを維持しながら2.26$\times$スピードアップと4.05$\times$メモリ削減が示されている。
我々の知る限り、これは拡散変圧器におけるプラグアンドプレイW4A4推論に対する回転型量子化の最初の応用である。
関連論文リスト
- Q-DiT4SR: Exploration of Detail-Preserving Diffusion Transformer Quantization for Real-World Image Super-Resolution [47.12618295041499]
提案するQ-DiT4SRは,DiTベースのReal-ISRに適したPTQフレームワークである。
H-SVDは,グローバルな低ランク分岐とローカルなブロックワイドランク1分岐をマッチングパラメータ予算の下で統合する階層的SVDである。
複数の実世界のデータセットの実験により、我々のQ-DiT4SRは、W4A6とW4A4設定の両方でSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2026-02-01T15:07:59Z) - Alias-free 4D Gaussian Splatting [27.259991918653427]
Gaussian Splatting に基づく動的シーン再構築手法により,リアルタイムなレンダリングとリアルな画像生成が可能となる。
本研究では, 4次元ガウススプラッティングのための最大サンプリング周波数定式化を提案し, 4次元スケール適応フィルタとスケールロスを導入する。
提案手法は,多視点ビデオ再構成における冗長なガウスを効果的に低減しつつ,レンダリング周波数の増大による高周波アーティファクトを除去する。
論文 参考訳(メタデータ) (2025-11-23T09:26:01Z) - Optimized Minimal 4D Gaussian Splatting [50.29519144753797]
4D Gaussian Splattingは動的シーン表現の新しいパラダイムとして登場し、複雑な動きを持つシーンのリアルタイムレンダリングを可能にした。
何百万人ものガウス人が高忠実度再構築を必要としているため、ストレージオーバーヘッドの大きな課題に直面している。
OMG4は、4次元ガウス模型を忠実に表現できる有能なガウスのコンパクトな集合を構成するフレームワークである。
論文 参考訳(メタデータ) (2025-10-04T16:11:13Z) - Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - S$^2$Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation [55.35880044416441]
ビデオ拡散モデル(V-DM)の学習後量子化フレームワークであるS$2$Q-VDiTを提案する。
W4A6量子化の下では、S$2$Q-VDiTは3.9倍のモデル圧縮と1.3倍の推論加速を実現している。
論文 参考訳(メタデータ) (2025-08-06T02:12:29Z) - Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping [36.012101195384744]
Diffusion Transformer (DiT) は画像生成モデルを構築する上で好まれる選択肢となっている。
DiTは純粋に、大きな言語モデルのようなスケーラビリティに優れたDiTをレンダリングするトランスフォーマーブロックのスタックで構成されている。
本稿では,これらの課題に対処するため,拡散変換に適したポストトレーニング量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T05:21:04Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation [23.99995355561429]
ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。
本稿では、DiTモデルに特化したViDiT-Q(Video & Image Diffusion Transformer Quantization)を紹介する。
様々なテキスト・ツー・イメージ・ビデオモデルにおけるViDiT-Qの有効性を検証し,視覚的品質とメトリクスの劣化を無視してW8A8およびW4A8を達成する。
論文 参考訳(メタデータ) (2024-06-04T17:57:10Z) - PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。
PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文 参考訳(メタデータ) (2024-05-25T02:02:08Z) - Orthonormal Convolutions for the Rotation Based Iterative
Gaussianization [64.44661342486434]
本稿では、画像ガウス化を可能にする回転型反復ガウス化RBIGの拡張について詳述する。
RBIGの回転は主成分分析や独立成分分析に基づくため、画像では小さな画像パッチや孤立画素に制限されている。
emphConvolutional RBIG:この問題を緩和する拡張として,RBIGの回転が畳み込みであることを示す。
論文 参考訳(メタデータ) (2022-06-08T12:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。