論文の概要: LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation
- arxiv url: http://arxiv.org/abs/2508.03485v3
- Date: Tue, 23 Sep 2025 05:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 14:02:59.868268
- Title: LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation
- Title(参考訳): LRQ-DiT:画像・映像生成用拡散変換器のログ回転後量子化
- Authors: Lianwei Yang, Haokun Lin, Tianchen Zhao, Yichen Wu, Hongyu Zhu, Ruiqi Xie, Zhenan Sun, Yu Wang, Qingyi Gu,
- Abstract要約: Diffusion Transformer (DiTs) は、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において、優れたパフォーマンスを実現している。
DiTsの高計算コストと大きなパラメータサイズは、リソース制約のあるシナリオでの利用に重大な課題をもたらす。
本稿では,映像・映像生成のための学習後量子化フレームワークLRQ-DiTを提案する。
- 参考スコア(独自算出の注目度): 41.66473889057111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have achieved impressive performance in text-to-image and text-to-video generation. However, their high computational cost and large parameter sizes pose significant challenges for usage in resource-constrained scenarios. Effective compression of models has become a crucial issue that urgently needs to be addressed. Post-training quantization (PTQ) is a promising solution to reduce memory usage and accelerate inference, but existing PTQ methods suffer from severe performance degradation under extreme low-bit settings. After experiments and analysis, we identify two key obstacles to low-bit PTQ for DiTs: (1) the weights of DiT models follow a Gaussian-like distribution with long tails, causing uniform quantization to poorly allocate intervals and leading to significant quantization errors. This issue has been observed in the linear layer weights of different DiT models, which deeply limits the performance. (2) two types of activation outliers in DiT models: (i) Mild Outliers with slightly elevated values, and (ii) Salient Outliers with large magnitudes concentrated in specific channels, which disrupt activation quantization. To address these issues, we propose LRQ-DiT, an efficient and accurate post-training quantization framework for image and video generation. First, we introduce Twin-Log Quantization (TLQ), a log-based method that allocates more quantization intervals to the intermediate dense regions, effectively achieving alignment with the weight distribution and reducing quantization errors. Second, we propose an Adaptive Rotation Scheme (ARS) that dynamically applies Hadamard or outlier-aware rotations based on activation fluctuation, effectively mitigating the impact of both types of outliers. Extensive experiments on various text-to-image and text-to-video DiT models demonstrate that LRQ-DiT preserves high generation quality.
- Abstract(参考訳): Diffusion Transformer (DiTs) は、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において、優れたパフォーマンスを実現している。
しかし、その高い計算コストと大きなパラメータサイズは、リソース制約のあるシナリオでの利用に重大な課題をもたらす。
モデルの効果的な圧縮は、緊急に対処する必要がある重要な問題となっている。
後トレーニング量子化(PTQ)はメモリ使用量の削減と推論の高速化に有望なソリューションであるが、既存のPTQ手法は極端に低ビット設定下での大幅な性能劣化に悩まされている。
1)DiTモデルの重みは、長い尾を持つガウス的な分布に従い、均一な量子化は間隔を不適切に割り当て、重要な量子化誤差をもたらす。
この問題は、異なるDiTモデルの線形層重みで観測されており、性能を著しく制限している。
2) DiTモデルにおける2種類のアクティベーションアウトレイア
一 わずかに高額な軽油流出器及び
(II) 活性化量子化を阻害する特定のチャネルに集中する大きな大きさの有能な外圧器。
これらの課題に対処するために,画像および映像生成のための効率的かつ正確な学習後量子化フレームワークであるLRQ-DiTを提案する。
まず、中間密度領域により多くの量子化間隔を割り当てるログベースの方法であるツインログ量子化(TLQ)を導入し、重み分布との整合性を効果的に達成し、量子化誤差を低減する。
第2に,アクティベーション変動に基づくアダマール回転やアダマール回転を動的に適用する適応回転方式(ARS)を提案し,両タイプのアダマール回転の影響を効果的に緩和する。
様々なテキスト・ツー・イメージおよびテキスト・ツー・ビデオのDiTモデルに対する大規模な実験により、LRQ-DiTは高世代品質を保っていることが示された。
関連論文リスト
- DMQ: Dissecting Outliers of Diffusion Models for Post-Training Quantization [29.066284789131494]
最近のトレーニング後の量子化法は、外乱を無視し、低ビット幅での劣化性能をもたらす。
本稿では,Learned Equivalent ScalingとチャネルワイドのPower-of-Two Scalingを組み合わせたDMQを提案する。
提案手法は,特に低ビット幅において,既存の処理性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-17T09:15:29Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models [16.720321201956157]
BASE-Qは、偏差補正と非対称スケーリングを組み合わせて、丸め誤差やクリップ誤差を減らす、シンプルながら強力なアプローチである。
実験では、BASE-Qの有効性が示され、精度のギャップは、QuaRot、SpinQuant、OSTQuantと比較して50.5%、42.9%、29.2%縮小した。
論文 参考訳(メタデータ) (2025-05-26T14:22:21Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。
重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。
時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文 参考訳(メタデータ) (2024-12-16T08:31:55Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers [45.762142897697366]
ポストトレーニング量子化(PTQ)は有望なソリューションとして登場し、事前訓練されたモデルに対するモデル圧縮と高速化推論を可能にする。
DiT量子化の研究は依然として不十分であり、既存のPTQフレームワークは偏りのある量子化に悩まされがちである。
入力チャネル間での重みとアクティベーションの有意な分散を扱うための自動量子化粒度割当と、タイムステップとサンプルの両方にわたるアクティベーション変化を適応的にキャプチャする標本ワイド動的アクティベーション量子化という、2つの重要な手法をシームレスに統合する新しいアプローチであるQ-DiTを提案する。
論文 参考訳(メタデータ) (2024-06-25T07:57:27Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution
Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。
DDTBは超低精度で優れた性能を示した。
例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文 参考訳(メタデータ) (2022-03-08T04:26:18Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。