論文の概要: Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.18375v2
- Date: Sun, 03 Aug 2025 08:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:55.683855
- Title: Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models
- Title(参考訳): ビデオ拡散モデルにおける個別内容と運動ダイナミクス保存プルーニング
- Authors: Yiming Wu, Huan Wang, Zhenghao Chen, Dong Xu,
- Abstract要約: 個別のコンテンツと動作動態を保存したプルーニングと整合性損失を用いた新しいビデオ拡散モデル圧縮手法を提案する。
テキスト・トゥ・ビデオ(T2V)と画像・トゥ・ビデオ(I2V)の2つの重要なビデオ生成タスクにおけるVDMiniの有効性を実証する。
- 参考スコア(独自算出の注目度): 26.556159722909715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high computational cost and slow inference time are major obstacles to deploying Video Diffusion Models (VDMs). To overcome this, we introduce a new Video Diffusion Model Compression approach using individual content and motion dynamics preserved pruning and consistency loss. First, we empirically observe that deeper VDM layers are crucial for maintaining the quality of \textbf{motion dynamics} (\textit{e.g.,} coherence of the entire video), while shallower layers are more focused on \textbf{individual content} (\textit{e.g.,} individual frames). Therefore, we prune redundant blocks from the shallower layers while preserving more of the deeper layers, resulting in a lightweight VDM variant called VDMini. Moreover, we propose an \textbf{Individual Content and Motion Dynamics (ICMD)} Consistency Loss to gain comparable generation performance as larger VDM to VDMini. In particular, we first use the Individual Content Distillation (ICD) Loss to preserve the consistency in the features of each generated frame between the teacher and student models. Next, we introduce a Multi-frame Content Adversarial (MCA) Loss to enhance the motion dynamics across the generated video as a whole. This method significantly accelerates inference time while maintaining high-quality video generation. Extensive experiments demonstrate the effectiveness of our VDMini on two important video generation tasks, Text-to-Video (T2V) and Image-to-Video (I2V), where we respectively achieve an average 2.5 $\times$, 1.4 $\times$, and 1.25 $\times$ speed up for the I2V method SF-V, the T2V method T2V-Turbo-v2, and the T2V method HunyuanVideo, while maintaining the quality of the generated videos on several benchmarks including UCF101, VBench-T2V, and VBench-I2V.
- Abstract(参考訳): 高い計算コストと遅い推論時間は、ビデオ拡散モデル(VDM)の展開の大きな障害である。
これを解決するために,個別のコンテンツと動作動態を保存したプルーニングと一貫性損失を用いたビデオ拡散モデル圧縮手法を提案する。
まず、より深いVDM層がビデオ全体のコヒーレンスを維持するために重要であることを実証的に観察し、より浅い層はより個々のフレームにフォーカスする。
したがって、より深い層を保存しながら、より浅い層から冗長なブロックを抽出し、その結果、VDMiniと呼ばれる軽量なVDM変異が生じる。
さらに,VDMiniに比べて大容量のVDMに匹敵する生成性能を得るために,<textbf{Individual Content and Motion Dynamics (ICMD) Consistency Lossを提案する。
特に,まず,教師モデルと学生モデルの間で生成された各フレームの特徴の一貫性を維持するために,個別内容蒸留(ICD)損失を用いる。
次に、生成されたビデオ全体にわたるモーションダイナミクスを強化するために、MCAロス(Multi-frame Content Adversarial:Multi-frame Content Adversarial)を導入する。
この方法は、高品質なビデオ生成を維持しながら、推論時間を著しく短縮する。
広範にわたる実験では、VDMiniが2つの重要なビデオ生成タスク(T2V)において、平均2.5$\times$, 1.4$\times$, 1.25$\times$, I2VメソッドSF-V, T2VメソッドT2V-Turbo-v2, T2VメソッドHunyuanVideo)に対して、UCF101, VBench-T2V, VBench-I2Vなどのベンチマークで生成されたビデオの品質を維持しながら、平均2.5$\times$, 1.4$\times$, 1.25$\times$を達成している。
関連論文リスト
- Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis [14.980220974022982]
本稿では,T2IモデルとT2Vモデルを構成するトレーニング不要なカプセル化ビデオ合成装置であるEVSを紹介し,視覚的忠実度と動きの滑らかさを両立させる。
提案手法は,低品質ビデオフレームを改良するために,よく訓練された拡散ベースT2Iモデルを用いる。
また、一貫した運動力学を保証するためにT2Vバックボーンを用いる。
論文 参考訳(メタデータ) (2025-07-18T08:59:02Z) - Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。
Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文 参考訳(メタデータ) (2025-02-14T15:58:10Z) - CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation [75.10635392993748]
視覚に基づく仮想試行(V2TON)方式であるCatV2TONを導入する。
CatV2TONは、衣服と人物の入力を時間的に結合し、画像とビデオのデータセットを混合してトレーニングすることにより、堅牢な試着性能を実現する。
また、背面フレームをフィルタリングし、3Dマスクのスムース化を施した精巧なビデオ試行データセットViViD-Sを提案する。
論文 参考訳(メタデータ) (2025-01-20T08:09:36Z) - Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。
新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。
メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T21:53:11Z) - VidTwin: Video VAE with Decoupled Structure and Dynamics [24.51768013474122]
VidTwinはコンパクトなビデオオートエンコーダで、ビデオを2つの異なる遅延空間に分離する。
構造潜時ベクトルは全体内容とグローバルな動きを捉え、ダイナミクス潜時ベクトルは微細な詳細と高速な動きを表す。
実験により、VidTwinは高い圧縮率で高い復元品質で0.20%を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T17:16:58Z) - WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model [15.171544722138806]
ビデオ変分オートエンコーダ(VAE)は、ビデオを低次元の潜在空間にエンコードする。
VAEは、ほとんどの遅延ビデオ拡散モデル(LVDM)のキーコンポーネントである
論文 参考訳(メタデータ) (2024-11-26T14:23:53Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation [37.05422543076405]
Image-to-Video(I2V)生成は、初期フレーム(テキストプロンプトの他)を使用してビデオシーケンスを作成することを目的としている。
既存の方法はしばしば、第1フレームから主題、背景、スタイルの整合性を維持するのに苦労する。
本稿では,I2V生成における視覚的一貫性を高める拡散法であるConsistI2Vを提案する。
論文 参考訳(メタデータ) (2024-02-06T19:08:18Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。