論文の概要: NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation
- arxiv url: http://arxiv.org/abs/2303.12346v1
- Date: Wed, 22 Mar 2023 07:10:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 15:00:33.924809
- Title: NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation
- Title(参考訳): NUWA-XL:eXtremely Long Video Generationのための拡散拡散
- Authors: Shengming Yin, Chenfei Wu, Huan Yang, Jianfeng Wang, Xiaodong Wang,
Minheng Ni, Zhengyuan Yang, Linjie Li, Shuguang Liu, Fan Yang, Jianlong Fu,
Gong Ming, Lijuan Wang, Zicheng Liu, Houqiang Li, Nan Duan
- Abstract要約: NUWA-XLは、eXtremely Long 世代のための新しい拡散アーキテクチャである。
当社のアプローチでは,動画を同じ粒度で並列に生成できる粗大な「微細化」プロセスを採用している。
実験の結果,グローバル・ローカル・コヒーレンスの両方で高品質な長編ビデオを生成するだけでなく,平均推定時間を7.55分から26秒に短縮できることがわかった。
- 参考スコア(独自算出の注目度): 157.07019458623242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose NUWA-XL, a novel Diffusion over Diffusion
architecture for eXtremely Long video generation. Most current work generates
long videos segment by segment sequentially, which normally leads to the gap
between training on short videos and inferring long videos, and the sequential
generation is inefficient. Instead, our approach adopts a ``coarse-to-fine''
process, in which the video can be generated in parallel at the same
granularity. A global diffusion model is applied to generate the keyframes
across the entire time range, and then local diffusion models recursively fill
in the content between nearby frames. This simple yet effective strategy allows
us to directly train on long videos (3376 frames) to reduce the
training-inference gap, and makes it possible to generate all segments in
parallel. To evaluate our model, we build FlintstonesHD dataset, a new
benchmark for long video generation. Experiments show that our model not only
generates high-quality long videos with both global and local coherence, but
also decreases the average inference time from 7.55min to 26s (by 94.26\%) at
the same hardware setting when generating 1024 frames. The homepage link is
\url{https://msra-nuwa.azurewebsites.net/}
- Abstract(参考訳): 本稿では,eXtremely Longビデオ生成のためのDiffusion over DiffusionアーキテクチャであるNUWA-XLを提案する。
現在のほとんどの作品は、連続的に長いビデオセグメントを生成するが、これは通常、短いビデオのトレーニングと長いビデオの推測の間にギャップを生じさせ、シーケンシャルな生成は非効率である。
その代わりに、我々のアプローチでは、ビデオが同じ粒度で並列に生成される‘粗い’プロセスを採用しています。
全時間範囲にわたってキーフレームを生成するために大域拡散モデルが適用され、周辺フレーム間のコンテンツを局所拡散モデルが再帰的に埋める。
このシンプルで効果的な戦略により、長いビデオ(3376フレーム)を直接トレーニングすることで、トレーニングと推論のギャップを減らし、すべてのセグメントを並列に生成することが可能になります。
このモデルを評価するために、長いビデオ生成のための新しいベンチマークであるFlintstonesHDデータセットを構築した。
実験により,本モデルは,グローバルおよびローカルのコヒーレンスを持つ高品質なロングビデオを生成するだけでなく,同じハードウェア環境において,平均推定時間を7.55minから26s(94.26\%)に短縮することを示した。
ホームページリンクは \url{https://msra-nuwa.azurewebsites.net/}
関連論文リスト
- Progressive Autoregressive Video Diffusion Models [24.97019070991881]
アーキテクチャを変更することなく、既存のモデルを自動回帰ビデオ拡散モデルに自然に拡張できることを示す。
1分間(24FPSで1440フレーム)の長ビデオ生成の最先端結果を示す。
論文 参考訳(メタデータ) (2024-10-10T17:36:15Z) - Pyramidal Flow Matching for Efficient Video Generative Modeling [67.03504440964564]
この研究は、統合ピラミッドフローマッチングアルゴリズムを導入している。
元々の装飾軌道をピラミッドの一連の段階として犠牲にしており、最終段階のみが完全な解像度で機能している。
フレームワーク全体はエンドツーエンドで最適化でき、単一の統合Diffusion Transformer (DiT) を使用する。
論文 参考訳(メタデータ) (2024-10-08T12:10:37Z) - Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文 参考訳(メタデータ) (2024-06-24T01:56:12Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。