論文の概要: Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models
- arxiv url: http://arxiv.org/abs/2304.08818v1
- Date: Tue, 18 Apr 2023 08:30:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:36:00.077022
- Title: Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models
- Title(参考訳): 潜在性拡散モデルを用いた高分解能ビデオ合成
- Authors: Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook
Kim, Sanja Fidler, Karsten Kreis
- Abstract要約: 遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
- 参考スコア(独自算出の注目度): 74.26499362882463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Diffusion Models (LDMs) enable high-quality image synthesis while
avoiding excessive compute demands by training a diffusion model in a
compressed lower-dimensional latent space. Here, we apply the LDM paradigm to
high-resolution video generation, a particularly resource-intensive task. We
first pre-train an LDM on images only; then, we turn the image generator into a
video generator by introducing a temporal dimension to the latent space
diffusion model and fine-tuning on encoded image sequences, i.e., videos.
Similarly, we temporally align diffusion model upsamplers, turning them into
temporally consistent video super resolution models. We focus on two relevant
real-world applications: Simulation of in-the-wild driving data and creative
content creation with text-to-video modeling. In particular, we validate our
Video LDM on real driving videos of resolution 512 x 1024, achieving
state-of-the-art performance. Furthermore, our approach can easily leverage
off-the-shelf pre-trained image LDMs, as we only need to train a temporal
alignment model in that case. Doing so, we turn the publicly available,
state-of-the-art text-to-image LDM Stable Diffusion into an efficient and
expressive text-to-video model with resolution up to 1280 x 2048. We show that
the temporal layers trained in this way generalize to different fine-tuned
text-to-image LDMs. Utilizing this property, we show the first results for
personalized text-to-video generation, opening exciting directions for future
content creation. Project page:
https://research.nvidia.com/labs/toronto-ai/VideoLDM/
- Abstract(参考訳): 潜時拡散モデル(ldms)は圧縮された低次元潜時空間における拡散モデルを訓練することにより、過剰な計算要求を回避しつつ高品質な画像合成を可能にする。
本稿では、特に資源集約的な課題である高解像度ビデオ生成にLDMパラダイムを適用した。
まず、画像のみにLDMを事前訓練し、次に、潜時空間拡散モデルに時間次元を導入し、符号化された画像シーケンス、すなわちビデオの微調整を行うことにより、画像生成装置をビデオ生成装置に変換する。
同様に、拡散モデルアップサンプラーを時間的に調整し、時間的に一貫したビデオスーパー解像度モデルに変換する。
本研究は,実世界の運転データシミュレーションと,テキストからビデオへのモデリングによる創造的コンテンツ作成の2つの応用に焦点を当てた。
特に,解像度512×1024の実動ビデオに対して,ビデオLDMの有効性を検証し,最先端の性能を実現する。
さらに,本手法では,時間的アライメントモデルのみをトレーニングする必要があるため,市販の事前学習画像 LDM の活用も容易である。
そうすることで、公開されている最先端のテキスト対画像のldmの安定拡散を、最大1280 x 2048までの解像度を持つ効率的で表現力のあるテキスト対ビデオモデルに転換します。
この方法で訓練された時間層は、異なる微調整されたテキスト-画像 LDM に一般化される。
この特性を利用して、テキストからビデオへのパーソナライズされた生成のための最初の結果を示し、将来のコンテンツ作成のためのエキサイティングな方向を示す。
プロジェクトページ: https://research.nvidia.com/labs/toronto-ai/VideoLDM/
関連論文リスト
- JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation [6.463753697299011]
高品質な時間的コヒーレントなビデオを生成するための新しいアプローチであるJVID(Joint Video-Image Diffusion Model)を導入する。
その結果,現実的かつ一貫性のあるビデオの制作において,定量的かつ質的な改善が示された。
論文 参考訳(メタデータ) (2024-09-21T13:59:50Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。
CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。
我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文 参考訳(メタデータ) (2024-03-21T05:48:48Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。
LLM-grounded Video Diffusion (LVD)を紹介する。
以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。