論文の概要: Timestep-Aware SVDQuant-GPTQ for W4A4 Quantization of Wan2.2-I2V
- arxiv url: http://arxiv.org/abs/2605.27003v1
- Date: Tue, 26 May 2026 13:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.184496
- Title: Timestep-Aware SVDQuant-GPTQ for W4A4 Quantization of Wan2.2-I2V
- Title(参考訳): Wan2.2-I2VのW4A4量子化のための時間ステップ対応SVDQuant-GPTQ
- Authors: Junhao Wu, Dezhong Yao, Hai Jin,
- Abstract要約: 大規模なビデオ拡散変換器の量子化W4A4は、メモリの大幅な節約を提供するが、2つの大きな課題によって妨げられる。
これらの難しさは、Wan2.2-I2V の2つの試験的混合型 DiT 設計によって複雑化されている。
本稿では,SVDQuantをベースとした低ランク外乱補償,GPTQをベースとした再構成型残量量子化,および各専門家が独立に行う時間ステップ2分単位のアクティベーションクリッピング比探索を組み合わせた後学習量子化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.570323694430538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: W4A4 quantization of large video diffusion Transformers offers substantial memory savings but is hindered by two main challenges: sparse large-magnitude activation outliers, and strongly timestep-dependent activation distributions across the multi-step denoising trajectory. These difficulties are compounded by Wan2.2-I2V's two-expert Mixture-of-Experts DiT design, whose high-noise and low-noise experts exhibit distinct quantization sensitivities that a single global calibration policy cannot capture. We propose a post-training quantization framework combining SVDQuant-based low-rank outlier compensation, GPTQ-based reconstruction-aware residual weight quantization, and timestep-bin-wise per-layer activation clipping-ratio search conducted independently for each expert. On the OpenS2V-Eval benchmark, our method reduces peak GPU memory by 59.3\% relative to the BF16 baseline while incurring only a 0.9\% drop in VBench average score and a 2.3\% drop in Imaging Quality, demonstrating that expert- and timestep-aware calibration is essential for high-fidelity W4A4 inference on MoE video DiTs.
- Abstract(参考訳): 大規模なビデオ拡散変換器の量子化W4A4は、メモリの大幅な節約を提供するが、大容量のアクティベーションアウトレーヤの少なさと、マルチステップのデノナイジング軌道全体にわたる強いタイムステップ依存のアクティベーション分布の2つの主な課題によって妨げられる。
これらの難しさは、Wan2.2-I2Vの2慣性混合設計(Mixture-of-Experts DiT)によって複雑化されている。
本稿では,SVDQuantをベースとした低ランク外乱補償,GPTQをベースとした再構成型残量量子化,および各専門家が独立に行う時間ステップ2分単位のアクティベーションクリッピング比探索を組み合わせた後学習量子化フレームワークを提案する。
OpenS2V-Evalベンチマークでは,BF16ベースラインに対してピークGPUメモリを59.3\%削減し,VBench平均スコアが0.9.%,イメージング品質が2.3\%低下した。
関連論文リスト
- DiRotQ: Rotation-Aware Quantization for 4-bit Diffusion Transformers [3.0583214514538084]
Diffusion Transformer (DiTs) は最先端の画像生成品質を実現するが、推論時にかなりのメモリと計算コストを発生させる。
平滑化法、混合精度法、回転法、低ランク残差法などの既存の手法は、この問題を部分的に緩和するが、それでもFP16/BF16の性能に顕著なギャップを残している。
本稿では、回転認識型アクティベーション量子化による劣化を緩和するW4A4 PTQフレームワークであるDiRotQを紹介する。
論文 参考訳(メタデータ) (2026-05-16T00:52:00Z) - MixA-Q: Revisiting Activation Sparsity for Vision Transformers from a Mixed-Precision Quantization Perspective [1.8282805097381256]
MixA-Qは、混合精度アクティベーション量子化フレームワークである。
本稿では,2分岐スウィンブロックを導入し,高いビット精度と低ビット精度のアクティベーションを別々に処理する。
PTQ構成の精度を損なうことなく、MixA-Qがトレーニング不要な1.35倍の高速化を実現することを示す。
論文 参考訳(メタデータ) (2025-07-25T10:13:14Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。
PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文 参考訳(メタデータ) (2024-05-25T02:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。