論文の概要: Q-VDiT: Towards Accurate Quantization and Distillation of Video-Generation Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2505.22167v1
- Date: Wed, 28 May 2025 09:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.537284
- Title: Q-VDiT: Towards Accurate Quantization and Distillation of Video-Generation Diffusion Transformers
- Title(参考訳): Q-VDiT:ビデオ生成拡散変換器の正確な量子化と蒸留を目指して
- Authors: Weilun Feng, Chuanguang Yang, Haotong Qin, Xiangqi Li, Yu Wang, Zhulin An, Libo Huang, Boyu Diao, Zixiang Zhao, Yongjun Xu, Michele Magno,
- Abstract要約: 本稿では,ビデオDiTモデルに特化して設計された量子化フレームワークQDi-VTを提案する。
量子化の観点から,トークンおよび特徴次元の量子化誤差を補償するToken-Aware Quantization Estor (TQE)を提案する。
我々のW3A6 QDi-VTは23.40のシーン一貫性を実現し、新しいベンチマークを設定し、1.9$times$で最先端の量子化手法より優れている。
- 参考スコア(独自算出の注目度): 31.95947876513405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion transformers (DiT) have demonstrated exceptional performance in video generation. However, their large number of parameters and high computational complexity limit their deployment on edge devices. Quantization can reduce storage requirements and accelerate inference by lowering the bit-width of model parameters. Yet, existing quantization methods for image generation models do not generalize well to video generation tasks. We identify two primary challenges: the loss of information during quantization and the misalignment between optimization objectives and the unique requirements of video generation. To address these challenges, we present Q-VDiT, a quantization framework specifically designed for video DiT models. From the quantization perspective, we propose the Token-aware Quantization Estimator (TQE), which compensates for quantization errors in both the token and feature dimensions. From the optimization perspective, we introduce Temporal Maintenance Distillation (TMD), which preserves the spatiotemporal correlations between frames and enables the optimization of each frame with respect to the overall video context. Our W3A6 Q-VDiT achieves a scene consistency of 23.40, setting a new benchmark and outperforming current state-of-the-art quantization methods by 1.9$\times$. Code will be available at https://github.com/cantbebetter2/Q-VDiT.
- Abstract(参考訳): 拡散変換器(DiT)はビデオ生成において例外的な性能を示した。
しかし、それらの大量のパラメータと高い計算複雑性は、エッジデバイスへのデプロイメントを制限する。
量子化は、モデルパラメータのビット幅を下げることで、ストレージ要件を減らし、推論を加速することができる。
しかし,既存の画像生成モデルの量子化手法は,映像生成タスクには適していない。
量子化時の情報の損失と、最適化目標とビデオ生成のユニークな要件との相違の2つの主要な課題を識別する。
これらの課題に対処するため、ビデオDiTモデルに特化して設計された量子化フレームワークQ-VDiTを提案する。
量子化の観点から,トークンおよび特徴次元の量子化誤差を補償するToken-Aware Quantization Estimator (TQE)を提案する。
最適化の観点からは、フレーム間の時空間相関を保ち、ビデオ全体のコンテキストに関して各フレームの最適化を可能にする、時間的保守蒸留(TMD)を導入する。
我々のW3A6 Q-VDiTは23.40のシーン一貫性を実現し、新しいベンチマークを設定し、1.9$\times$で最先端の量子化手法より優れている。
コードはhttps://github.com/cantbebetter2/Q-VDiT.comで入手できる。
関連論文リスト
- DVD-Quant: Data-free Video Diffusion Transformers Quantization [98.43940510241768]
Diffusion Transformers (DiT) はビデオ生成の最先端アーキテクチャとして登場したが、その計算とメモリの要求は実際の展開を妨げている。
ビデオDiTのための新しいデータフリー量子化フレームワークであるDVD-Quantを提案する。
提案手法は,データフリーな量子化誤差低減のための,プログレッシブバウンド量子化(PBQ)と自動スケーリング回転量子化(ARQ)の3つの重要なイノベーションを統合する。
論文 参考訳(メタデータ) (2025-05-24T11:56:02Z) - PMQ-VE: Progressive Multi-Frame Quantization for Video Enhancement [83.89668902758243]
多フレームビデオ強調タスクは、ビデオシーケンスの空間的および時間的解像度と品質を改善することを目的としている。
映像強調のためのプログレッシブマルチフレーム量子化(PMQ-VE)を提案する。
このフレームワークは、バックトラックベースマルチフレーム量子化(BMFQ)とプログレッシブマルチ教師蒸留(PMTD)という、粗大な2段階のプロセスを備えている。
論文 参考訳(メタデータ) (2025-05-18T07:10:40Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation [23.99995355561429]
ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。
本稿では、DiTモデルに特化したViDiT-Q(Video & Image Diffusion Transformer Quantization)を紹介する。
様々なテキスト・ツー・イメージ・ビデオモデルにおけるViDiT-Qの有効性を検証し,視覚的品質とメトリクスの劣化を無視してW8A8およびW4A8を達成する。
論文 参考訳(メタデータ) (2024-06-04T17:57:10Z) - ResQ: Residual Quantization for Video Perception [18.491197847596283]
本稿では,Residual Quantization(Residual Quantization)と呼ばれるビデオネットワークのための新しい量子化手法を提案する。
ビデオの変化量に比例してビット幅を動的に調整するために、我々のモデルを拡張します。
論文 参考訳(メタデータ) (2023-08-18T12:41:10Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。