論文の概要: Latent Video Diffusion Models for High-Fidelity Video Generation with
Arbitrary Lengths
- arxiv url: http://arxiv.org/abs/2211.13221v1
- Date: Wed, 23 Nov 2022 18:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:04:15.459097
- Title: Latent Video Diffusion Models for High-Fidelity Video Generation with
Arbitrary Lengths
- Title(参考訳): 任意長高精細ビデオ生成のための潜時拡散モデル
- Authors: Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, Qifeng Chen
- Abstract要約: 純雑音から高忠実度および任意の長大映像を合成する軽量ビデオ拡散モデルを提案する。
具体的には,低次元の3次元潜伏空間において拡散と遮音を行う。
我々のモデルは任意の長さ、すなわち数千フレームの動画を自己回帰的に生成することができる。
- 参考スコア(独自算出の注目度): 58.346702410885236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-generated content has attracted lots of attention recently, but
photo-realistic video synthesis is still challenging. Although many attempts
using GANs and autoregressive models have been made in this area, the visual
quality and length of generated videos are far from satisfactory. Diffusion
models (DMs) are another class of deep generative models and have recently
achieved remarkable performance on various image synthesis tasks. However,
training image diffusion models usually requires substantial computational
resources to achieve a high performance, which makes expanding diffusion models
to high-dimensional video synthesis tasks more computationally expensive. To
ease this problem while leveraging its advantages, we introduce lightweight
video diffusion models that synthesize high-fidelity and arbitrary-long videos
from pure noise. Specifically, we propose to perform diffusion and denoising in
a low-dimensional 3D latent space, which significantly outperforms previous
methods on 3D pixel space when under a limited computational budget. In
addition, though trained on tens of frames, our models can generate videos with
arbitrary lengths, i.e., thousands of frames, in an autoregressive way.
Finally, conditional latent perturbation is further introduced to reduce
performance degradation during synthesizing long-duration videos. Extensive
experiments on various datasets and generated lengths suggest that our
framework is able to sample much more realistic and longer videos than previous
approaches, including GAN-based, autoregressive-based, and diffusion-based
methods.
- Abstract(参考訳): AI生成コンテンツは近年多くの注目を集めているが、写真リアリスティックなビデオ合成はまだ難しい。
GANと自己回帰モデルを用いた多くの試みがこの領域で行われているが、生成したビデオの視覚的品質と長さは満足できない。
拡散モデル (DM) は深層生成モデルの別のクラスであり、最近では様々な画像合成タスクにおいて顕著な性能を達成している。
しかし、画像拡散モデルの訓練は通常、高パフォーマンスを達成するためにかなりの計算資源を必要とするため、高次元ビデオ合成タスクへの拡散モデルの拡張は計算コストが高くなる。
優位性を生かしながらこの問題を緩和するために,高忠実度および任意の長大映像を純雑音から合成する軽量ビデオ拡散モデルを導入する。
具体的には, 計算予算が限定された場合の3次元画素空間における従来の方法を大幅に上回る低次元3次元潜時空間における拡散と除音を行う。
さらに、何万フレームでトレーニングしても、私たちのモデルは任意の長さ、すなわち数千フレームの動画を自己回帰的に生成することができます。
最後に, 条件付き潜伏摂動を導入し, 長周期ビデオの合成における性能劣化を低減する。
さまざまなデータセットと生成した長さに関する広範な実験は、ganベース、自己回帰ベース、拡散ベースなど、以前のアプローチよりもずっとリアルで長いビデオをサンプリングできることを示唆している。
関連論文リスト
- ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning [36.378348127629195]
ビデオ合成モデルのための新しいポストチューニング手法であるExVideoを提案する。
このアプローチは、現在のビデオ合成モデルの能力を向上し、時間的長期にわたってコンテンツを制作できるように設計されている。
当社のアプローチでは、40Kビデオからなるデータセット上でのトレーニングに15kのGPU時間しか必要とせず、オリジナルのフレーム数に対して最大5倍の価格で生成可能なモデル容量を拡大しています。
論文 参考訳(メタデータ) (2024-06-20T09:18:54Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。