論文の概要: QVGen: Pushing the Limit of Quantized Video Generative Models
- arxiv url: http://arxiv.org/abs/2505.11497v1
- Date: Fri, 16 May 2025 17:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.788083
- Title: QVGen: Pushing the Limit of Quantized Video Generative Models
- Title(参考訳): QVGen: 量子化されたビデオ生成モデルの限界を推し進める
- Authors: Yushi Huang, Ruihao Gong, Jing Liu, Yifu Ding, Chengtao Lv, Haotong Qin, Jun Zhang,
- Abstract要約: ビデオ拡散モデル(DM)により高品質なビデオ合成が可能となったが、その膨大な計算とメモリ要求は現実の展開に重大な課題をもたらす。
提案するQVGenは,高速かつ推論効率の高いビデオDMに適した,QAT(quantization-aware training)フレームワークである。
- 参考スコア(独自算出の注目度): 24.742294284368032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video diffusion models (DMs) have enabled high-quality video synthesis. Yet, their substantial computational and memory demands pose serious challenges to real-world deployment, even on high-end GPUs. As a commonly adopted solution, quantization has proven notable success in reducing cost for image DMs, while its direct application to video DMs remains ineffective. In this paper, we present QVGen, a novel quantization-aware training (QAT) framework tailored for high-performance and inference-efficient video DMs under extremely low-bit quantization (e.g., 4-bit or below). We begin with a theoretical analysis demonstrating that reducing the gradient norm is essential to facilitate convergence for QAT. To this end, we introduce auxiliary modules ($\Phi$) to mitigate large quantization errors, leading to significantly enhanced convergence. To eliminate the inference overhead of $\Phi$, we propose a rank-decay strategy that progressively eliminates $\Phi$. Specifically, we repeatedly employ singular value decomposition (SVD) and a proposed rank-based regularization $\mathbf{\gamma}$ to identify and decay low-contributing components. This strategy retains performance while zeroing out inference overhead. Extensive experiments across $4$ state-of-the-art (SOTA) video DMs, with parameter sizes ranging from $1.3$B $\sim14$B, show that QVGen is the first to reach full-precision comparable quality under 4-bit settings. Moreover, it significantly outperforms existing methods. For instance, our 3-bit CogVideoX-2B achieves improvements of $+25.28$ in Dynamic Degree and $+8.43$ in Scene Consistency on VBench.
- Abstract(参考訳): ビデオ拡散モデル(DM)は高品質なビデオ合成を可能にしている。
しかし、彼らの相当量の計算とメモリ要求は、ハイエンドのGPUでさえ、現実世界のデプロイメントに深刻な課題をもたらす。
一般に採用されているソリューションとして、量子化は画像DMのコスト削減に顕著な成功を収め、ビデオDMへの直接的適用は依然として有効ではない。
本稿では,QVGenを提案する。QVGenは,超低ビット量子化(例えば,4ビット以下)下での高パフォーマンスかつ推論効率なビデオDMに適した,新しい量子化対応トレーニング(QAT)フレームワークである。
まず、QATの収束を促進するために勾配ノルムの減少が不可欠であることを示す理論的解析から始める。
この目的のために、大規模な量子化誤差を緩和するために補助加群($\Phi$)を導入する。
ここでは、$\Phi$の推論オーバーヘッドを排除するために、$\Phi$を徐々に排除するランクデカイ戦略を提案する。
具体的には、単値分解(SVD)と階数に基づく正規化($\mathbf{\gamma}$)を繰り返し使用し、低寄与成分の同定と減衰を行う。
この戦略は、推論オーバーヘッドをゼロにしながらパフォーマンスを維持する。
パラメータサイズは1.3ドルB$\sim14$Bから、QVGenが4ビット設定で完全精度に匹敵する品質に達したのは初めてである。
さらに、既存の手法よりも大幅に優れています。
例えば、3ビットのCogVideoX-2Bはダイナミックデグレで$+25.28$、VBenchのScene Consistencyで$+8.43$の改善を実現しています。
関連論文リスト
- QArtSR: Quantization via Reverse-Module and Timestep-Retraining in One-Step Diffusion based Image Super-Resolution [96.98816416660534]
1段階拡散ベース画像超解像モデル(OSDSR)は、近年ますます優れた性能を示している。
そこで我々は,QArtSR と呼ばれる OSDSR の逆加群による量子化と時間ステップの調整を効率的に行う方法を提案する。
我々の4ビットおよび2ビットの量子化実験結果から、QArtSRは最近の先行比較法に対して優れた効果が得られることが示唆された。
論文 参考訳(メタデータ) (2025-03-07T17:11:07Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文 参考訳(メタデータ) (2023-10-07T14:50:28Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。