論文の概要: Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models
- arxiv url: http://arxiv.org/abs/2304.08818v2
- Date: Thu, 28 Dec 2023 03:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 23:13:48.866982
- Title: Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models
- Title(参考訳): 潜在性拡散モデルを用いた高分解能ビデオ合成
- Authors: Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook
Kim, Sanja Fidler, Karsten Kreis
- Abstract要約: 遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
- 参考スコア(独自算出の注目度): 71.11425812806431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Diffusion Models (LDMs) enable high-quality image synthesis while
avoiding excessive compute demands by training a diffusion model in a
compressed lower-dimensional latent space. Here, we apply the LDM paradigm to
high-resolution video generation, a particularly resource-intensive task. We
first pre-train an LDM on images only; then, we turn the image generator into a
video generator by introducing a temporal dimension to the latent space
diffusion model and fine-tuning on encoded image sequences, i.e., videos.
Similarly, we temporally align diffusion model upsamplers, turning them into
temporally consistent video super resolution models. We focus on two relevant
real-world applications: Simulation of in-the-wild driving data and creative
content creation with text-to-video modeling. In particular, we validate our
Video LDM on real driving videos of resolution 512 x 1024, achieving
state-of-the-art performance. Furthermore, our approach can easily leverage
off-the-shelf pre-trained image LDMs, as we only need to train a temporal
alignment model in that case. Doing so, we turn the publicly available,
state-of-the-art text-to-image LDM Stable Diffusion into an efficient and
expressive text-to-video model with resolution up to 1280 x 2048. We show that
the temporal layers trained in this way generalize to different fine-tuned
text-to-image LDMs. Utilizing this property, we show the first results for
personalized text-to-video generation, opening exciting directions for future
content creation. Project page:
https://research.nvidia.com/labs/toronto-ai/VideoLDM/
- Abstract(参考訳): 潜時拡散モデル(ldms)は圧縮された低次元潜時空間における拡散モデルを訓練することにより、過剰な計算要求を回避しつつ高品質な画像合成を可能にする。
本稿では、特に資源集約的な課題である高解像度ビデオ生成にLDMパラダイムを適用した。
まず、画像のみにLDMを事前訓練し、次に、潜時空間拡散モデルに時間次元を導入し、符号化された画像シーケンス、すなわちビデオの微調整を行うことにより、画像生成装置をビデオ生成装置に変換する。
同様に、拡散モデルアップサンプラーを時間的に調整し、時間的に一貫したビデオスーパー解像度モデルに変換する。
本研究は,実世界の運転データシミュレーションと,テキストからビデオへのモデリングによる創造的コンテンツ作成の2つの応用に焦点を当てた。
特に,解像度512×1024の実動ビデオに対して,ビデオLDMの有効性を検証し,最先端の性能を実現する。
さらに,本手法では,時間的アライメントモデルのみをトレーニングする必要があるため,市販の事前学習画像 LDM の活用も容易である。
そうすることで、公開されている最先端のテキスト対画像のldmの安定拡散を、最大1280 x 2048までの解像度を持つ効率的で表現力のあるテキスト対ビデオモデルに転換します。
この方法で訓練された時間層は、異なる微調整されたテキスト-画像 LDM に一般化される。
この特性を利用して、テキストからビデオへのパーソナライズされた生成のための最初の結果を示し、将来のコンテンツ作成のためのエキサイティングな方向を示す。
プロジェクトページ: https://research.nvidia.com/labs/toronto-ai/VideoLDM/
関連論文リスト
- Photorealistic Video Generation with Diffusion Models [44.95407324724976]
W.A.L.T.は拡散モデリングによるビデオ生成のためのトランスフォーマーベースのアプローチである。
我々は因果エンコーダを用いて、統一された潜在空間内で画像とビデオを共同で圧縮し、モダリティ間のトレーニングと生成を可能にする。
また,基本潜時ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなるテキスト・ビデオ生成タスクのための3つのモデルのカスケードをトレーニングし,毎秒8ドルフレームで512倍の解像度の動画を生成する。
論文 参考訳(メタデータ) (2023-12-11T18:59:57Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - LLM-grounded Video Diffusion Models [61.399690543666395]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトと格闘し、制限されたまたは誤った動きを生成する。
所望の属性と動きパターンを持つビデオを生成するために,LLMによるビデオ拡散を導入する。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。