論文の概要: DVD-Quant: Data-free Video Diffusion Transformers Quantization
- arxiv url: http://arxiv.org/abs/2505.18663v1
- Date: Sat, 24 May 2025 11:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.577449
- Title: DVD-Quant: Data-free Video Diffusion Transformers Quantization
- Title(参考訳): DVD-Quant:データフリービデオ拡散変換器の量子化
- Authors: Zhiteng Li, Hanxuan Li, Junyi Wu, Kai Liu, Linghe Kong, Guihai Chen, Yulun Zhang, Xiaokang Yang,
- Abstract要約: Diffusion Transformers (DiT) はビデオ生成の最先端アーキテクチャとして登場したが、その計算とメモリの要求は実際の展開を妨げている。
ビデオDiTのための新しいデータフリー量子化フレームワークであるDVD-Quantを提案する。
提案手法は,データフリーな量子化誤差低減のための,プログレッシブバウンド量子化(PBQ)と自動スケーリング回転量子化(ARQ)の3つの重要なイノベーションを統合する。
- 参考スコア(独自算出の注目度): 98.43940510241768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have emerged as the state-of-the-art architecture for video generation, yet their computational and memory demands hinder practical deployment. While post-training quantization (PTQ) presents a promising approach to accelerate Video DiT models, existing methods suffer from two critical limitations: (1) dependence on lengthy, computation-heavy calibration procedures, and (2) considerable performance deterioration after quantization. To address these challenges, we propose DVD-Quant, a novel Data-free quantization framework for Video DiTs. Our approach integrates three key innovations: (1) Progressive Bounded Quantization (PBQ) and (2) Auto-scaling Rotated Quantization (ARQ) for calibration data-free quantization error reduction, as well as (3) $\delta$-Guided Bit Switching ($\delta$-GBS) for adaptive bit-width allocation. Extensive experiments across multiple video generation benchmarks demonstrate that DVD-Quant achieves an approximately 2$\times$ speedup over full-precision baselines on HunyuanVideo while maintaining visual fidelity. Notably, DVD-Quant is the first to enable W4A4 PTQ for Video DiTs without compromising video quality. Code and models will be available at https://github.com/lhxcs/DVD-Quant.
- Abstract(参考訳): Diffusion Transformers (DiT) はビデオ生成の最先端アーキテクチャとして登場したが、その計算とメモリの要求は実際の展開を妨げている。
ポストトレーニング量子化(PTQ)はビデオDiTモデルの高速化に有望な手法であるが,既存の手法では,(1)長大な計算重度校正手順への依存,(2)量子化後の大幅な性能劣化という2つの限界がある。
これらの課題に対処するために,DVD-Quantを提案する。
提案手法は,(1)プログレッシブバウンド量子化(PBQ)と(2)キャリブレーションデータ自由量子化誤差低減のための自動スケーリング回転量子化(ARQ),(3)適応ビット幅割り当てのための$\delta$-Guided Bit Switching(\delta$-GBS)の3つの重要なイノベーションを統合する。
複数のビデオ生成ベンチマークによる大規模な実験は、DVD-QuantがHunyuanVideoのフル精度ベースラインよりも約2$\times$のスピードアップを実現し、視覚的忠実さを維持していることを示している。
特筆すべきは、DVD-Quantは、ビデオ品質を損なうことなく、W4A4 PTQをVideo DiTsで利用可能にする最初の方法である。
コードとモデルはhttps://github.com/lhxcs/DVD-Quant.comで入手できる。
関連論文リスト
- QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design [54.38970077613728]
ビデオ監視、会議要約、教育講義分析、スポーツ放送といった現実の応用において、ロングビデオ理解が重要な機能として現れてきた。
我々は,リアルタイムダウンストリームアプリケーションをサポートするために,長時間ビデオ理解を大幅に高速化するシステムアルゴリズムの共同設計であるQuickVideoを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:26:50Z) - PMQ-VE: Progressive Multi-Frame Quantization for Video Enhancement [83.89668902758243]
多フレームビデオ強調タスクは、ビデオシーケンスの空間的および時間的解像度と品質を改善することを目的としている。
映像強調のためのプログレッシブマルチフレーム量子化(PMQ-VE)を提案する。
このフレームワークは、バックトラックベースマルチフレーム量子化(BMFQ)とプログレッシブマルチ教師蒸留(PMTD)という、粗大な2段階のプロセスを備えている。
論文 参考訳(メタデータ) (2025-05-18T07:10:40Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Image and Video Tokenization with Binary Spherical Quantization [36.850958591333836]
バイナリ球面量子化(BSQ)を用いたトランスフォーマベース画像およびビデオトークン化器を提案する。
BSQは、高次元の視覚的埋め込みを低次元の超球面に投影し、二値量子化を適用する。
我々のトークンライザは、可変長動画を入力としてサポートするために、単純なブロックワイズ因果マスキングを備えたトランスフォーマーエンコーダとデコーダを使用する。
論文 参考訳(メタデータ) (2024-06-11T17:59:53Z) - ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation [23.99995355561429]
ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。
本稿では、DiTモデルに特化したViDiT-Q(Video & Image Diffusion Transformer Quantization)を紹介する。
様々なテキスト・ツー・イメージ・ビデオモデルにおけるViDiT-Qの有効性を検証し,視覚的品質とメトリクスの劣化を無視してW8A8およびW4A8を達成する。
論文 参考訳(メタデータ) (2024-06-04T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。