論文の概要: MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
- arxiv url: http://arxiv.org/abs/2401.04468v1
- Date: Tue, 9 Jan 2024 10:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 16:08:57.407326
- Title: MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
- Title(参考訳): MagicVideo-V2:マルチステージ高美的ビデオ生成
- Authors: Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin
Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
- Abstract要約: 本稿では,テキスト・ツー・イメージ・モデル,ビデオモーション・ジェネレータ,参照画像埋め込みモジュール,フレームビデオモジュールをエンドツーエンドのビデオ生成パイプラインに統合するMagicVideo-V2を紹介する。
Runway、Pika 1.0、Morph、Moon Valley、Stable Video Diffusionモデルといった主要なテキスト対ビデオシステムよりも、大規模なユーザ評価による優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 66.83462685170116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing demand for high-fidelity video generation from textual
descriptions has catalyzed significant research in this field. In this work, we
introduce MagicVideo-V2 that integrates the text-to-image model, video motion
generator, reference image embedding module and frame interpolation module into
an end-to-end video generation pipeline. Benefiting from these architecture
designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution
video with remarkable fidelity and smoothness. It demonstrates superior
performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph,
Moon Valley and Stable Video Diffusion model via user evaluation at large
scale.
- Abstract(参考訳): テキスト記述から高精細なビデオ生成への需要が高まり、この分野で重要な研究が進められている。
本稿では,テキスト・ツー・イメージ・モデル,ビデオモーション・ジェネレータ,参照画像埋め込みモジュール,フレーム補間モジュールをエンドツーエンドのビデオ生成パイプラインに統合するMagicVideo-V2を紹介する。
MagicVideo-V2は、これらのアーキテクチャデザインの利点を生かして、美しくて高解像度なビデオを作りだすことができる。
Runway、Pika 1.0、Morph、Moon Valley、Stable Video Diffusionモデルといった主要なテキスト対ビデオシステムよりも、大規模なユーザ評価による優れたパフォーマンスを示している。
関連論文リスト
- StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - VideoCrafter1: Open Diffusion Models for High-Quality Video Generation [97.5767036934979]
高品質ビデオ生成のための2つの拡散モデル、すなわち、テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ(I2V)モデルを導入する。
T2Vモデルは与えられたテキスト入力に基づいてビデオを合成し、I2Vモデルは追加のイメージ入力を含む。
提案したT2Vモデルは,解像度が1024×576$のリアルで映像品質の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-30T13:12:40Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。