論文の概要: Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2204.03458v1
- Date: Thu, 7 Apr 2022 14:08:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 13:04:09.384973
- Title: Video Diffusion Models
- Title(参考訳): ビデオ拡散モデル
- Authors: Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad
Norouzi, David J. Fleet
- Abstract要約: 時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
- 参考スコア(独自算出の注目度): 47.99413440461512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating temporally coherent high fidelity video is an important milestone
in generative modeling research. We make progress towards this milestone by
proposing a diffusion model for video generation that shows very promising
initial results. Our model is a natural extension of the standard image
diffusion architecture, and it enables jointly training from image and video
data, which we find to reduce the variance of minibatch gradients and speed up
optimization. To generate long and higher resolution videos we introduce a new
conditional sampling technique for spatial and temporal video extension that
performs better than previously proposed methods. We present the first results
on a large text-conditioned video generation task, as well as state-of-the-art
results on an established unconditional video generation benchmark.
Supplementary material is available at https://video-diffusion.github.io/
- Abstract(参考訳): 時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
このマイルストーンに向けて,ビデオ生成のための拡散モデルを提案し,非常に有望な初期結果を示す。
我々のモデルは,標準画像拡散アーキテクチャの自然な拡張であり,画像データと映像データとの連立学習を可能にし,ミニバッチ勾配のばらつきを低減し,最適化を高速化する。
長時間高解像度ビデオを生成するために,提案手法よりも優れた空間的・時間的ビデオ拡張のための条件付きサンプリング手法を提案する。
本稿では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最先端の成果を示す。
補足資料はhttps://video-diffusion.github.io/で入手できる。
関連論文リスト
- DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance [73.19191296296988]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。