論文の概要: Latent Video Diffusion Models for High-Fidelity Long Video Generation
- arxiv url: http://arxiv.org/abs/2211.13221v2
- Date: Mon, 20 Mar 2023 17:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 01:38:39.233737
- Title: Latent Video Diffusion Models for High-Fidelity Long Video Generation
- Title(参考訳): 高精細長ビデオ生成のための潜時ビデオ拡散モデル
- Authors: Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, Qifeng Chen
- Abstract要約: 低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
- 参考スコア(独自算出の注目度): 58.346702410885236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-generated content has attracted lots of attention recently, but
photo-realistic video synthesis is still challenging. Although many attempts
using GANs and autoregressive models have been made in this area, the visual
quality and length of generated videos are far from satisfactory. Diffusion
models have shown remarkable results recently but require significant
computational resources. To address this, we introduce lightweight video
diffusion models by leveraging a low-dimensional 3D latent space, significantly
outperforming previous pixel-space video diffusion models under a limited
computational budget. In addition, we propose hierarchical diffusion in the
latent space such that longer videos with more than one thousand frames can be
produced. To further overcome the performance degradation issue for long video
generation, we propose conditional latent perturbation and unconditional
guidance that effectively mitigate the accumulated errors during the extension
of video length. Extensive experiments on small domain datasets of different
categories suggest that our framework generates more realistic and longer
videos than previous strong baselines. We additionally provide an extension to
large-scale text-to-video generation to demonstrate the superiority of our
work. Our code and models will be made publicly available.
- Abstract(参考訳): AI生成コンテンツは近年多くの注目を集めているが、写真リアリスティックなビデオ合成はまだ難しい。
GANと自己回帰モデルを用いた多くの試みがこの領域で行われているが、生成したビデオの視覚的品質と長さは満足できない。
拡散モデルは最近顕著な結果を示したが、かなりの計算資源を必要とする。
そこで本稿では,低次元の3次元潜在空間を利用して軽量な映像拡散モデルを導入する。
さらに,1000フレーム以上の長大映像を生成できるように,潜在空間における階層的拡散を提案する。
長大なビデオ生成の性能劣化問題をさらに克服するため,ビデオ長延長時の累積誤差を効果的に軽減する条件付き潜在摂動と無条件誘導を提案する。
さまざまなカテゴリの小さなドメインデータセットに関する広範な実験は、我々のフレームワークが以前の強力なベースラインよりもリアルで長いビデオを生成することを示唆している。
また,本研究の優位性を示すため,大規模テキスト・ビデオ生成の拡張も提供する。
私たちのコードとモデルは公開されます。
関連論文リスト
- ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning [36.378348127629195]
ビデオ合成モデルのための新しいポストチューニング手法であるExVideoを提案する。
このアプローチは、現在のビデオ合成モデルの能力を向上し、時間的長期にわたってコンテンツを制作できるように設計されている。
当社のアプローチでは、40Kビデオからなるデータセット上でのトレーニングに15kのGPU時間しか必要とせず、オリジナルのフレーム数に対して最大5倍の価格で生成可能なモデル容量を拡大しています。
論文 参考訳(メタデータ) (2024-06-20T09:18:54Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。