論文の概要: MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
- arxiv url: http://arxiv.org/abs/2401.04468v1
- Date: Tue, 9 Jan 2024 10:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 16:08:57.407326
- Title: MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
- Title(参考訳): MagicVideo-V2:マルチステージ高美的ビデオ生成
- Authors: Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin
Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
- Abstract要約: 本稿では,テキスト・ツー・イメージ・モデル,ビデオモーション・ジェネレータ,参照画像埋め込みモジュール,フレームビデオモジュールをエンドツーエンドのビデオ生成パイプラインに統合するMagicVideo-V2を紹介する。
Runway、Pika 1.0、Morph、Moon Valley、Stable Video Diffusionモデルといった主要なテキスト対ビデオシステムよりも、大規模なユーザ評価による優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 66.83462685170116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing demand for high-fidelity video generation from textual
descriptions has catalyzed significant research in this field. In this work, we
introduce MagicVideo-V2 that integrates the text-to-image model, video motion
generator, reference image embedding module and frame interpolation module into
an end-to-end video generation pipeline. Benefiting from these architecture
designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution
video with remarkable fidelity and smoothness. It demonstrates superior
performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph,
Moon Valley and Stable Video Diffusion model via user evaluation at large
scale.
- Abstract(参考訳): テキスト記述から高精細なビデオ生成への需要が高まり、この分野で重要な研究が進められている。
本稿では,テキスト・ツー・イメージ・モデル,ビデオモーション・ジェネレータ,参照画像埋め込みモジュール,フレーム補間モジュールをエンドツーエンドのビデオ生成パイプラインに統合するMagicVideo-V2を紹介する。
MagicVideo-V2は、これらのアーキテクチャデザインの利点を生かして、美しくて高解像度なビデオを作りだすことができる。
Runway、Pika 1.0、Morph、Moon Valley、Stable Video Diffusionモデルといった主要なテキスト対ビデオシステムよりも、大規模なユーザ評価による優れたパフォーマンスを示している。
関連論文リスト
- Motion Control for Enhanced Complex Action Video Generation [17.98485830881648]
既存のテキスト・ツー・ビデオ(T2V)モデルは、十分に発音または複雑なアクションでビデオを生成するのに苦労することが多い。
そこで本稿では, 高精度な流体アクションで長編ビデオを生成するための新しいフレームワークであるMVideoを提案する。
MVideoは、追加の動作条件入力としてマスクシーケンスを組み込むことで、テキストプロンプトの制限を克服する。
論文 参考訳(メタデータ) (2024-11-13T04:20:45Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。