論文の概要: Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.18375v1
- Date: Wed, 27 Nov 2024 14:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:25:29.870102
- Title: Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models
- Title(参考訳): ビデオ拡散モデルにおける個別内容と運動ダイナミクス保存プルーニング
- Authors: Yiming Wu, Huan Wang, Zhenghao Chen, Dong Xu,
- Abstract要約: ビデオ拡散モデル(VDM)を実用化するためには,高い計算コストと遅延推論時間が大きな障害となる。
個別のコンテンツと動作動態を保存したプルーニングと整合性損失を用いた新しいビデオ拡散モデル圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 26.556159722909715
- License:
- Abstract: The high computational cost and slow inference time are major obstacles to deploying the video diffusion model (VDM) in practical applications. To overcome this, we introduce a new Video Diffusion Model Compression approach using individual content and motion dynamics preserved pruning and consistency loss. First, we empirically observe that deeper VDM layers are crucial for maintaining the quality of \textbf{motion dynamics} e.g., coherence of the entire video, while shallower layers are more focused on \textbf{individual content} e.g., individual frames. Therefore, we prune redundant blocks from the shallower layers while preserving more of the deeper layers, resulting in a lightweight VDM variant called VDMini. Additionally, we propose an \textbf{Individual Content and Motion Dynamics (ICMD)} Consistency Loss to gain comparable generation performance as larger VDM, i.e., the teacher to VDMini i.e., the student. Particularly, we first use the Individual Content Distillation (ICD) Loss to ensure consistency in the features of each generated frame between the teacher and student models. Next, we introduce a Multi-frame Content Adversarial (MCA) Loss to enhance the motion dynamics across the generated video as a whole. This method significantly accelerates inference time while maintaining high-quality video generation. Extensive experiments demonstrate the effectiveness of our VDMini on two important video generation tasks, Text-to-Video (T2V) and Image-to-Video (I2V), where we respectively achieve an average 2.5 $\times$ and 1.4 $\times$ speed up for the I2V method SF-V and the T2V method T2V-Turbo-v2, while maintaining the quality of the generated videos on two benchmarks, i.e., UCF101 and VBench.
- Abstract(参考訳): ビデオ拡散モデル(VDM)を実用化するためには、計算コストが高く、推論時間が遅いことが大きな障害となる。
これを解決するために,個別のコンテンツと動作動態を保存したプルーニングと一貫性損失を用いたビデオ拡散モデル圧縮手法を提案する。
まず、より深いVDM層は、ビデオ全体のコヒーレンスである「textbf{motion dynamics} eg」の品質維持に不可欠であるのに対し、より浅い層は「textbf{individual content} eg」、個々のフレームに重点を置いていることを実証的に観察する。
したがって、より深い層を保存しながら、より浅い層から冗長なブロックを抽出し、その結果、VDMiniと呼ばれる軽量なVDM変異が生じる。
さらに,より大規模なVDM,すなわちVDMiniの教師,すなわち学生と同等の世代パフォーマンスを得るために,<textbf{Individual Content and Motion Dynamics (ICMD) Consistency Lossを提案する。
特に,まず,教師モデルと学生モデルの間で生成された各フレームの特徴の整合性を確保するために,個別内容蒸留(ICD)損失を用いる。
次に、生成されたビデオ全体にわたるモーションダイナミクスを強化するために、MCAロス(Multi-frame Content Adversarial:Multi-frame Content Adversarial)を導入する。
この方法は、高品質なビデオ生成を維持しながら、推論時間を著しく短縮する。
2つの重要なビデオ生成タスクであるText-to-Video (T2V) と Image-to-Video (I2V) におけるVDMiniの有効性を示す大規模な実験では、平均2.5$\times$ と 1.4$\times$ が I2V メソッド SF-V と T2V メソッド T2V-Turbo-v2 で達成され、生成したビデオの品質は UCF101 と VBench の2つのベンチマークで維持されている。
関連論文リスト
- CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation [75.10635392993748]
視覚に基づく仮想試行(V2TON)方式であるCatV2TONを導入する。
CatV2TONは、衣服と人物の入力を時間的に結合し、画像とビデオのデータセットを混合してトレーニングすることにより、堅牢な試着性能を実現する。
また、背面フレームをフィルタリングし、3Dマスクのスムース化を施した精巧なビデオ試行データセットViViD-Sを提案する。
論文 参考訳(メタデータ) (2025-01-20T08:09:36Z) - Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。
新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。
メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T21:53:11Z) - VidTwin: Video VAE with Decoupled Structure and Dynamics [24.51768013474122]
VidTwinはビデオの自動エンコーダで、ビデオを2つの異なる遅延空間に分離する。
構造潜時ベクトルは全体内容とグローバルな動きを捉え、ダイナミクス潜時ベクトルは微細な詳細と高速な動きを表す。
実験により、VidTwinは高い圧縮率で高い復元品質で0.20%を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T17:16:58Z) - WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model [15.171544722138806]
ビデオ変分オートエンコーダ(VAE)は、ビデオを低次元の潜在空間にエンコードする。
VAEは、ほとんどの遅延ビデオ拡散モデル(LVDM)のキーコンポーネントである
論文 参考訳(メタデータ) (2024-11-26T14:23:53Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation [37.05422543076405]
Image-to-Video(I2V)生成は、初期フレーム(テキストプロンプトの他)を使用してビデオシーケンスを作成することを目的としている。
既存の方法はしばしば、第1フレームから主題、背景、スタイルの整合性を維持するのに苦労する。
本稿では,I2V生成における視覚的一貫性を高める拡散法であるConsistI2Vを提案する。
論文 参考訳(メタデータ) (2024-02-06T19:08:18Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。