論文の概要: DVD-Quant: Data-free Video Diffusion Transformers Quantization
- arxiv url: http://arxiv.org/abs/2505.18663v1
- Date: Sat, 24 May 2025 11:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.577449
- Title: DVD-Quant: Data-free Video Diffusion Transformers Quantization
- Title(参考訳): DVD-Quant:データフリービデオ拡散変換器の量子化
- Authors: Zhiteng Li, Hanxuan Li, Junyi Wu, Kai Liu, Linghe Kong, Guihai Chen, Yulun Zhang, Xiaokang Yang,
- Abstract要約: Diffusion Transformers (DiT) はビデオ生成の最先端アーキテクチャとして登場したが、その計算とメモリの要求は実際の展開を妨げている。
ビデオDiTのための新しいデータフリー量子化フレームワークであるDVD-Quantを提案する。
提案手法は,データフリーな量子化誤差低減のための,プログレッシブバウンド量子化(PBQ)と自動スケーリング回転量子化(ARQ)の3つの重要なイノベーションを統合する。
- 参考スコア(独自算出の注目度): 98.43940510241768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have emerged as the state-of-the-art architecture for video generation, yet their computational and memory demands hinder practical deployment. While post-training quantization (PTQ) presents a promising approach to accelerate Video DiT models, existing methods suffer from two critical limitations: (1) dependence on lengthy, computation-heavy calibration procedures, and (2) considerable performance deterioration after quantization. To address these challenges, we propose DVD-Quant, a novel Data-free quantization framework for Video DiTs. Our approach integrates three key innovations: (1) Progressive Bounded Quantization (PBQ) and (2) Auto-scaling Rotated Quantization (ARQ) for calibration data-free quantization error reduction, as well as (3) $\delta$-Guided Bit Switching ($\delta$-GBS) for adaptive bit-width allocation. Extensive experiments across multiple video generation benchmarks demonstrate that DVD-Quant achieves an approximately 2$\times$ speedup over full-precision baselines on HunyuanVideo while maintaining visual fidelity. Notably, DVD-Quant is the first to enable W4A4 PTQ for Video DiTs without compromising video quality. Code and models will be available at https://github.com/lhxcs/DVD-Quant.
- Abstract(参考訳): Diffusion Transformers (DiT) はビデオ生成の最先端アーキテクチャとして登場したが、その計算とメモリの要求は実際の展開を妨げている。
ポストトレーニング量子化(PTQ)はビデオDiTモデルの高速化に有望な手法であるが,既存の手法では,(1)長大な計算重度校正手順への依存,(2)量子化後の大幅な性能劣化という2つの限界がある。
これらの課題に対処するために,DVD-Quantを提案する。
提案手法は,(1)プログレッシブバウンド量子化(PBQ)と(2)キャリブレーションデータ自由量子化誤差低減のための自動スケーリング回転量子化(ARQ),(3)適応ビット幅割り当てのための$\delta$-Guided Bit Switching(\delta$-GBS)の3つの重要なイノベーションを統合する。
複数のビデオ生成ベンチマークによる大規模な実験は、DVD-QuantがHunyuanVideoのフル精度ベースラインよりも約2$\times$のスピードアップを実現し、視覚的忠実さを維持していることを示している。
特筆すべきは、DVD-Quantは、ビデオ品質を損なうことなく、W4A4 PTQをVideo DiTsで利用可能にする最初の方法である。
コードとモデルはhttps://github.com/lhxcs/DVD-Quant.comで入手できる。
関連論文リスト
- S$^2$Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation [32.895381997778586]
ビデオ拡散モデル(V-DM)の学習後量子化フレームワークであるS$2$Q-VDiTを提案する。
W4A6量子化の下では、S$2$Q-VDiTは3.9倍のモデル圧縮と1.3倍の推論加速を実現している。
論文 参考訳(メタデータ) (2025-08-06T02:12:29Z) - Q-VDiT: Towards Accurate Quantization and Distillation of Video-Generation Diffusion Transformers [31.95947876513405]
本稿では,ビデオDiTモデルに特化して設計された量子化フレームワークQDi-VTを提案する。
量子化の観点から,トークンおよび特徴次元の量子化誤差を補償するToken-Aware Quantization Estor (TQE)を提案する。
我々のW3A6 QDi-VTは23.40のシーン一貫性を実現し、新しいベンチマークを設定し、1.9$times$で最先端の量子化手法より優れている。
論文 参考訳(メタデータ) (2025-05-28T09:33:52Z) - QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design [54.38970077613728]
ビデオ監視、会議要約、教育講義分析、スポーツ放送といった現実の応用において、ロングビデオ理解が重要な機能として現れてきた。
我々は,リアルタイムダウンストリームアプリケーションをサポートするために,長時間ビデオ理解を大幅に高速化するシステムアルゴリズムの共同設計であるQuickVideoを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:26:50Z) - PMQ-VE: Progressive Multi-Frame Quantization for Video Enhancement [83.89668902758243]
多フレームビデオ強調タスクは、ビデオシーケンスの空間的および時間的解像度と品質を改善することを目的としている。
映像強調のためのプログレッシブマルチフレーム量子化(PMQ-VE)を提案する。
このフレームワークは、バックトラックベースマルチフレーム量子化(BMFQ)とプログレッシブマルチ教師蒸留(PMTD)という、粗大な2段階のプロセスを備えている。
論文 参考訳(メタデータ) (2025-05-18T07:10:40Z) - Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。
Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文 参考訳(メタデータ) (2025-02-14T15:58:10Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Image and Video Tokenization with Binary Spherical Quantization [36.850958591333836]
バイナリ球面量子化(BSQ)を用いたトランスフォーマベース画像およびビデオトークン化器を提案する。
BSQは、高次元の視覚的埋め込みを低次元の超球面に投影し、二値量子化を適用する。
我々のトークンライザは、可変長動画を入力としてサポートするために、単純なブロックワイズ因果マスキングを備えたトランスフォーマーエンコーダとデコーダを使用する。
論文 参考訳(メタデータ) (2024-06-11T17:59:53Z) - ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation [23.99995355561429]
ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。
本稿では、DiTモデルに特化したViDiT-Q(Video & Image Diffusion Transformer Quantization)を紹介する。
様々なテキスト・ツー・イメージ・ビデオモデルにおけるViDiT-Qの有効性を検証し,視覚的品質とメトリクスの劣化を無視してW8A8およびW4A8を達成する。
論文 参考訳(メタデータ) (2024-06-04T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。