論文の概要: Q-DiT4SR: Exploration of Detail-Preserving Diffusion Transformer Quantization for Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2602.01273v1
- Date: Sun, 01 Feb 2026 15:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.687777
- Title: Q-DiT4SR: Exploration of Detail-Preserving Diffusion Transformer Quantization for Real-World Image Super-Resolution
- Title(参考訳): Q-DiT4SR:リアルタイム超解像のための詳細保存拡散変圧器量子化の探索
- Authors: Xun Zhang, Kaicheng Yang, Hongliang Lu, Haotong Qin, Yong Guo, Yulun Zhang,
- Abstract要約: 提案するQ-DiT4SRは,DiTベースのReal-ISRに適したPTQフレームワークである。
H-SVDは,グローバルな低ランク分岐とローカルなブロックワイドランク1分岐をマッチングパラメータ予算の下で統合する階層的SVDである。
複数の実世界のデータセットの実験により、我々のQ-DiT4SRは、W4A6とW4A4設定の両方でSOTA性能を達成することが示された。
- 参考スコア(独自算出の注目度): 47.12618295041499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Diffusion Transformers (DiTs) have emerged in Real-World Image Super-Resolution (Real-ISR) to generate high-quality textures, yet their heavy inference burden hinders real-world deployment. While Post-Training Quantization (PTQ) is a promising solution for acceleration, existing methods in super-resolution mostly focus on U-Net architectures, whereas generic DiT quantization is typically designed for text-to-image tasks. Directly applying these methods to DiT-based super-resolution models leads to severe degradation of local textures. Therefore, we propose Q-DiT4SR, the first PTQ framework specifically tailored for DiT-based Real-ISR. We propose H-SVD, a hierarchical SVD that integrates a global low-rank branch with a local block-wise rank-1 branch under a matched parameter budget. We further propose Variance-aware Spatio-Temporal Mixed Precision: VaSMP allocates cross-layer weight bit-widths in a data-free manner based on rate-distortion theory, while VaTMP schedules intra-layer activation precision across diffusion timesteps via dynamic programming (DP) with minimal calibration. Experiments on multiple real-world datasets demonstrate that our Q-DiT4SR achieves SOTA performance under both W4A6 and W4A4 settings. Notably, the W4A4 quantization configuration reduces model size by 5.8$\times$ and computational operations by over 60$\times$. Our code and models will be available at https://github.com/xunzhang1128/Q-DiT4SR.
- Abstract(参考訳): 近年,Diffusion Transformers (DiTs) は高品質なテクスチャを生成するためにReal-World Image Super-Resolution (Real-ISR) に登場したが,その重い推論負荷は実世界の展開を妨げる。
Post-Training Quantization (PTQ) はアクセラレーションのための有望なソリューションであるが、既存の超高解像度の手法は主にU-Netアーキテクチャに焦点を当てている。
これらの手法をDiTベースの超解像モデルに直接適用すると、局所的なテクスチャが著しく劣化する。
そこで本研究では,DiTベースのReal-ISRに適したPTQフレームワークであるQ-DiT4SRを提案する。
H-SVDは,グローバルな低ランク分岐とローカルなブロックワイドランク1分岐をマッチングパラメータ予算の下で統合する階層的SVDである。
さらに、VaSMPは、レート歪み理論に基づいて、データフリーでクロス層重み付けビット幅を割り当てる一方、VaTMPは、最小限のキャリブレーションで動的プログラミング(DP)を介して拡散時間にまたがる層内アクティベーション精度をスケジュールする。
複数の実世界のデータセットの実験により、我々のQ-DiT4SRは、W4A6とW4A4設定の両方でSOTA性能を達成することが示された。
特に、W4A4量子化構成はモデルサイズを5.8$\times$、計算処理を60$\times$に削減する。
私たちのコードとモデルはhttps://github.com/xunzhang1128/Q-DiT4SRで公開されます。
関連論文リスト
- TreeQ: Pushing the Quantization Boundary of Diffusion Transformer via Tree-Structured Mixed-Precision Search [35.93578975066986]
Diffusion Transformer (DiT) は、画像生成のための非常にスケーラブルで効果的なバックボーンとして登場した。
混合精度量子化(MPQ)は、サブ4ビット設定へのU-Net量子化の進展において顕著な成功を収めた。
DiT量子化における重要な課題に対処する統合フレームワークであるTreeQを提案する。
論文 参考訳(メタデータ) (2025-12-06T08:59:12Z) - Post-Training Quantization via Residual Truncation and Zero Suppression for Diffusion Models [10.000323762676633]
拡散モデルは、高品質な画像生成を実現するが、高い計算要求のため、デプロイメントの課題に直面している。
拡散モデルのための4ビットPTQスキームであるResidual Truncation and Zero Suppression (QuaRTZ) による量子化を提案する。
提案手法は,外乱保存とLSB精度のバランスをとることにより,丸め誤差を低減し,量子化効率を向上させる。
論文 参考訳(メタデータ) (2025-09-30T15:55:42Z) - HiMat: DiT-based Ultra-High Resolution SVBRDF Generation [26.081964370337943]
HiMatは、効率的な4K SVBRDF生成に適した拡散ベースのフレームワークである。
CrossStitchは軽量な畳み込みモジュールで、グローバルな注目を集めるコストを伴わずに、クロスマップの一貫性を強制する。
論文 参考訳(メタデータ) (2025-08-09T15:16:58Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。
PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文 参考訳(メタデータ) (2024-05-25T02:02:08Z) - Q-DETR: An Efficient Low-Bit Quantized Detection Transformer [50.00784028552792]
Q-DETRのボトルネックは、我々の経験的分析によるクエリ情報の歪みから生じる。
情報ボトルネック(IB)の原理をQ-DETRの学習に一般化することで導出できる2レベル最適化問題としてDRDを定式化する。
本研究では,教師情報を蒸留所要の機能に効果的に転送し,条件情報エントロピーを最小化する,フォアグラウンド対応クエリマッチング手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。