論文の概要: MagicVideo: Efficient Video Generation With Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2211.11018v1
- Date: Sun, 20 Nov 2022 16:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:35:23.981247
- Title: MagicVideo: Efficient Video Generation With Latent Diffusion Models
- Title(参考訳): MagicVideo: 遅延拡散モデルによる効率的なビデオ生成
- Authors: Daquan Zhou, Weimin Wang, Hanshu Yan, Weiwei Lv, Yizhe Zhu, Jiashi
Feng
- Abstract要約: テキストの説明が与えられたら、MagicVideoはテキストの内容に高い関連性を持つ写真リアルなビデオクリップを生成することができる。
提案された効率的な3D U-Net設計により、MagicVideoは単一のGPUカード上で256x256の空間解像度でビデオクリップを生成することができる。
- 参考スコア(独自算出の注目度): 76.95903791630624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an efficient text-to-video generation framework based on latent
diffusion models, termed MagicVideo. Given a text description, MagicVideo can
generate photo-realistic video clips with high relevance to the text content.
With the proposed efficient latent 3D U-Net design, MagicVideo can generate
video clips with 256x256 spatial resolution on a single GPU card, which is 64x
faster than the recent video diffusion model (VDM). Unlike previous works that
train video generation from scratch in the RGB space, we propose to generate
video clips in a low-dimensional latent space. We further utilize all the
convolution operator weights of pre-trained text-to-image generative U-Net
models for faster training. To achieve this, we introduce two new designs to
adapt the U-Net decoder to video data: a framewise lightweight adaptor for the
image-to-video distribution adjustment and a directed temporal attention module
to capture frame temporal dependencies. The whole generation process is within
the low-dimension latent space of a pre-trained variation auto-encoder. We
demonstrate that MagicVideo can generate both realistic video content and
imaginary content in a photo-realistic style with a trade-off in terms of
quality and computational cost. Refer to https://magicvideo.github.io/# for
more examples.
- Abstract(参考訳): 本稿では,潜在拡散モデルに基づく効率的なテキスト対ビデオ生成フレームワークであるmagicvideoを提案する。
テキストの説明が与えられたら、MagicVideoはテキストの内容に高い関連性を持つ写真リアルなビデオクリップを生成することができる。
提案した効率的な3D U-Net設計により、MagicVideoは、最新のビデオ拡散モデル(VDM)よりも64倍高速な単一のGPUカード上で256x256の空間解像度でビデオクリップを生成することができる。
RGB空間のスクラッチから映像を生成する以前の作品とは異なり、低次元のラテント空間でビデオクリップを生成することを提案する。
さらに、事前訓練されたテキスト・画像生成U-Netモデルの畳み込み演算子重みを高速なトレーニングに活用する。
そこで本研究では,U-Netデコーダを映像データに適用するための2つの新しい設計手法を提案する。
全生成過程は、事前訓練された変分オートエンコーダの低次元潜在空間内である。
我々はMagicVideoがリアルなビデオコンテンツと想像的コンテンツの両方を、画質と計算コストのトレードオフでリアルなスタイルで生成できることを実証した。
詳しくはhttps://magicvideo.github.io/#を参照。
関連論文リスト
- REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:59Z) - Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。
CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。
我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文 参考訳(メタデータ) (2024-03-21T05:48:48Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。