論文の概要: LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models
- arxiv url: http://arxiv.org/abs/2309.15103v2
- Date: Wed, 27 Sep 2023 03:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 10:15:19.769985
- Title: LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models
- Title(参考訳): LAVIE: Cascaded Latent Diffusion Modelを用いた高品質ビデオ生成
- Authors: Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi
Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing
Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua
Lin, Yu Qiao, Ziwei Liu
- Abstract要約: 我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
- 参考スコア(独自算出の注目度): 133.088893990272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to learn a high-quality text-to-video (T2V) generative model
by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a
highly desirable yet challenging task to simultaneously a) accomplish the
synthesis of visually realistic and temporally coherent videos while b)
preserving the strong creative generation nature of the pre-trained T2I model.
To this end, we propose LaVie, an integrated video generation framework that
operates on cascaded video latent diffusion models, comprising a base T2V
model, a temporal interpolation model, and a video super-resolution model. Our
key insights are two-fold: 1) We reveal that the incorporation of simple
temporal self-attentions, coupled with rotary positional encoding, adequately
captures the temporal correlations inherent in video data. 2) Additionally, we
validate that the process of joint image-video fine-tuning plays a pivotal role
in producing high-quality and creative outcomes. To enhance the performance of
LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M,
consisting of 25 million text-video pairs that prioritize quality, diversity,
and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves
state-of-the-art performance both quantitatively and qualitatively.
Furthermore, we showcase the versatility of pre-trained LaVie models in various
long video generation and personalized video synthesis applications.
- Abstract(参考訳): 本研究の目的は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ(T2V)生成モデルを学習することである。
同時に行うことが非常に望ましいが難しいタスクである。
a) 映像的かつ時間的にコヒーレントな映像の合成を実現すること
b)事前訓練されたt2iモデルの強い創造性を維持すること。
そこで本稿では,ベースt2vモデル,時間的補間モデル,ビデオ超解像モデルからなる,カスケードされたビデオ潜在拡散モデルで動作する統合ビデオ生成フレームワークlavieを提案する。
私たちの重要な洞察は2つあります。
1) ビデオデータに内在する時間的相関関係を, 簡易な時間的自己注意と回転的位置エンコーディングの併用により適切に捉えることを明らかにする。
2) 高品質で創造的な結果を生み出す上で, 共同映像調整のプロセスが重要な役割を担っていることを検証する。
LaVieの性能向上のために,品質,多様性,美的魅力を優先する2500万のテキストビデオペアからなる,Vimeo25Mという,包括的で多様なビデオデータセットをコントリビュートした。
大規模な実験により、LaVieは定量的にも定性的にも最先端のパフォーマンスを達成することを示した。
さらに,様々な長期ビデオ生成およびパーソナライズされたビデオ合成アプリケーションにおいて,事前学習したLaVieモデルの汎用性を示す。
関連論文リスト
- VideoCrafter2: Overcoming Data Limitations for High-Quality Video
Diffusion Models [76.85329896854189]
高品質なビデオモデルを実現するために,低品質な映像の活用と高品質な画像の合成の実現可能性について検討する。
我々は、高画質の映像で空間モジュールを微調整することにより、動きの劣化を伴わずに高画質に分布をシフトし、その結果、総称的な高品質な映像モデルを得る。
論文 参考訳(メタデータ) (2024-01-17T08:30:32Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - VideoCrafter1: Open Diffusion Models for High-Quality Video Generation [97.5767036934979]
高品質ビデオ生成のための2つの拡散モデル、すなわち、テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ(I2V)モデルを導入する。
T2Vモデルは与えられたテキスト入力に基づいてビデオを合成し、I2Vモデルは追加のイメージ入力を含む。
提案したT2Vモデルは,解像度が1024×576$のリアルで映像品質の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-30T13:12:40Z) - GD-VDM: Generated Depth for better Diffusion-based Video Generation [18.039417502897486]
本稿では,映像生成のための新しい拡散モデルGD-VDMを提案する。
また,GD-VDMをCityscapesデータセット上で評価した結果,自然ベースラインよりも多様で複雑なシーンが生成されることがわかった。
論文 参考訳(メタデータ) (2023-06-19T21:32:10Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。