論文の概要: Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets
- arxiv url: http://arxiv.org/abs/2311.15127v1
- Date: Sat, 25 Nov 2023 22:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:04:41.887377
- Title: Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets
- Title(参考訳): 安定なビデオ拡散: 遅延ビデオ拡散モデルから大規模データセットへのスケーリング
- Authors: Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch,
Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam
Letts, Varun Jampani, Robin Rombach
- Abstract要約: 本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
- 参考スコア(独自算出の注目度): 36.95521842177614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Stable Video Diffusion - a latent video diffusion model for
high-resolution, state-of-the-art text-to-video and image-to-video generation.
Recently, latent diffusion models trained for 2D image synthesis have been
turned into generative video models by inserting temporal layers and finetuning
them on small, high-quality video datasets. However, training methods in the
literature vary widely, and the field has yet to agree on a unified strategy
for curating video data. In this paper, we identify and evaluate three
different stages for successful training of video LDMs: text-to-image
pretraining, video pretraining, and high-quality video finetuning. Furthermore,
we demonstrate the necessity of a well-curated pretraining dataset for
generating high-quality videos and present a systematic curation process to
train a strong base model, including captioning and filtering strategies. We
then explore the impact of finetuning our base model on high-quality data and
train a text-to-video model that is competitive with closed-source video
generation. We also show that our base model provides a powerful motion
representation for downstream tasks such as image-to-video generation and
adaptability to camera motion-specific LoRA modules. Finally, we demonstrate
that our model provides a strong multi-view 3D-prior and can serve as a base to
finetune a multi-view diffusion model that jointly generates multiple views of
objects in a feedforward fashion, outperforming image-based methods at a
fraction of their compute budget. We release code and model weights at
https://github.com/Stability-AI/generative-models .
- Abstract(参考訳): 本稿では,高分解能,最先端のテキスト対ビデオおよび映像対ビデオ生成のための潜在ビデオ拡散モデルであるstable video diffusionを提案する。
近年,2次元画像合成のために訓練された潜時拡散モデルが,時間層を挿入し,小型で高品質な映像データセットに微調整することで生成ビデオモデルに変換されている。
しかし,文献の訓練方法は多様であり,映像データのキュレーションに関する統一的な戦略については未定である。
本稿では,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオ・ファインタニングの3つの段階を同定し,評価する。
さらに,高品質ビデオを生成するための事前学習データセットの必要性を実証し,キャプションやフィルタリング戦略を含む強固なベースモデルを学習するための体系的キュレーションプロセスを提案する。
次に、ベースモデルを高品質データに微調整し、クローズドソースビデオ生成と競合するテキスト対ビデオモデルをトレーニングすることで、その影響について検討する。
また,映像映像生成やカメラモーション固有のLoRAモジュールへの適応性などの下流タスクに対して,ベースモデルが強力なモーション表現を提供することを示す。
最後に,本モデルが強力なマルチビュー3Dプリンシパルを提供し,複数ビューのオブジェクトビューをフィードフォワード形式で共同生成する多ビュー拡散モデルを構築する基盤として機能し,画像ベースの手法を計算予算のごく一部で上回ることを示す。
コードとモデルはhttps://github.com/Stability-AI/generative-modelsでリリースしています。
関連論文リスト
- VideoCrafter2: Overcoming Data Limitations for High-Quality Video
Diffusion Models [76.85329896854189]
高品質なビデオモデルを実現するために,低品質な映像の活用と高品質な画像の合成の実現可能性について検討する。
我々は、高画質の映像で空間モジュールを微調整することにより、動きの劣化を伴わずに高画質に分布をシフトし、その結果、総称的な高品質な映像モデルを得る。
論文 参考訳(メタデータ) (2024-01-17T08:30:32Z) - Photorealistic Video Generation with Diffusion Models [44.95407324724976]
W.A.L.T.は拡散モデリングによるビデオ生成のためのトランスフォーマーベースのアプローチである。
我々は因果エンコーダを用いて、統一された潜在空間内で画像とビデオを共同で圧縮し、モダリティ間のトレーニングと生成を可能にする。
また,基本潜時ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなるテキスト・ビデオ生成タスクのための3つのモデルのカスケードをトレーニングし,毎秒8ドルフレームで512倍の解像度の動画を生成する。
論文 参考訳(メタデータ) (2023-12-11T18:59:57Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance [73.19191296296988]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Conditional Generative Modeling for Images, 3D Animations, and Video [4.422441608136163]
コンピュータビジョンのための生成モデリングの分野における革新を推進しようとする論文。
研究は、ノイズと視覚データの変換を提供するアーキテクチャと、生成タスクや3Dコンテンツ操作にエンコーダ・デコーダアーキテクチャを適用することに焦点を当てている。
論文 参考訳(メタデータ) (2023-10-19T21:10:39Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Control-A-Video: Controllable Text-to-Video Generation with Diffusion
Models [52.512109160994655]
本稿では,制御可能なテキスト・ツー・ビデオ(T2V)拡散モデルであるコントロール・ア・ビデオについて述べる。
オブジェクトの一貫性を改善するために、Control-A-Videoは動画生成にモーション・プレッションとコンテント・プレッションを統合する。
本モデルでは, 資源効率の収束を実現し, きめ細かい制御で一貫したコヒーレントな映像を生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。