論文の概要: VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2309.00398v2
- Date: Thu, 7 Sep 2023 08:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 15:57:43.793314
- Title: VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation
- Title(参考訳): VideoGen: 高定義テキスト・ビデオ生成のための参照型遅延拡散手法
- Authors: Xin Li, Wenqing Chu, Ye Wu, Weihang Yuan, Fanglong Liu, Qi Zhang, Fu
Li, Haocheng Feng, Errui Ding, Jingdong Wang
- Abstract要約: VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
- 参考スコア(独自算出の注目度): 73.54366331493007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present VideoGen, a text-to-video generation approach,
which can generate a high-definition video with high frame fidelity and strong
temporal consistency using reference-guided latent diffusion. We leverage an
off-the-shelf text-to-image generation model, e.g., Stable Diffusion, to
generate an image with high content quality from the text prompt, as a
reference image to guide video generation. Then, we introduce an efficient
cascaded latent diffusion module conditioned on both the reference image and
the text prompt, for generating latent video representations, followed by a
flow-based temporal upsampling step to improve the temporal resolution.
Finally, we map latent video representations into a high-definition video
through an enhanced video decoder. During training, we use the first frame of a
ground-truth video as the reference image for training the cascaded latent
diffusion module. The main characterises of our approach include: the reference
image generated by the text-to-image model improves the visual fidelity; using
it as the condition makes the diffusion model focus more on learning the video
dynamics; and the video decoder is trained over unlabeled video data, thus
benefiting from high-quality easily-available videos. VideoGen sets a new
state-of-the-art in text-to-video generation in terms of both qualitative and
quantitative evaluation. See \url{https://videogen.github.io/VideoGen/} for
more samples.
- Abstract(参考訳): 本稿では,参照誘導潜在拡散を用いた高フレーム忠実性と強い時間的一貫性を有する高精細映像を生成できるテキスト対ビデオ生成手法であるvideogenを提案する。
テキストプロンプトからコンテンツ品質の高い画像を生成し、映像生成を導くための基準画像として、既成のテキスト対画像生成モデル(例えば、安定拡散)を利用する。
次に、参照画像とテキストプロンプトの両方に条件付けされた効率的な遅延拡散モジュールを導入し、遅延ビデオ表現を生成し、その後、時間分解能を改善するためのフローベースの時間的アップサンプリングステップを導入する。
最後に,拡張ビデオデコーダを用いて,潜在映像表現を高精細映像にマッピングする。
トレーニング中は,地上構造ビデオの最初のフレームを基準画像として,カスケード付き潜伏拡散モジュールのトレーニングを行う。
提案手法の主な特徴は,テキスト・ツー・イメージ・モデルによって生成された参照画像が視覚的忠実度を向上させること,拡散モデルが映像力学の学習に集中すること,ビデオデコーダがラベル付けされていないビデオデータよりも訓練され,高品質なビデオの恩恵を受けること,などである。
videogenは、質的および定量的評価の両方の観点から、テキスト対ビデオ生成の最先端を新たに設定する。
詳細は \url{https://videogen.github.io/VideoGen/} を参照。
関連論文リスト
- Inflation with Diffusion: Efficient Temporal Adaptation for
Text-to-Video Super-Resolution [19.748048455806305]
本稿では,効率的な拡散型テキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。
本稿では,我々の拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
論文 参考訳(メタデータ) (2024-01-18T22:25:16Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。