論文の概要: MotionVideoGAN: A Novel Video Generator Based on the Motion Space
Learned from Image Pairs
- arxiv url: http://arxiv.org/abs/2303.02906v1
- Date: Mon, 6 Mar 2023 05:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:59:20.490568
- Title: MotionVideoGAN: A Novel Video Generator Based on the Motion Space
Learned from Image Pairs
- Title(参考訳): MotionVideoGAN:画像ペアから学習した動き空間に基づく新しいビデオジェネレータ
- Authors: Jingyuan Zhu, Huimin Ma, Jiansheng Chen, and Jian Yuan
- Abstract要約: 我々は、事前訓練された画像ペア生成器によって学習された動き空間に基づいて、動画を合成する新しいビデオジェネレータであるMotionVideoGANを紹介する。
モーションコードは、編集された画像が同じ内容を共有するため、モーション空間内の画像を編集するのに役立ちます。
提案手法は,未条件のビデオ生成評価に使用される最も複雑なビデオデータセットであるUCF101に対して,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 16.964371778504297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation has achieved rapid progress benefiting from high-quality
renderings provided by powerful image generators. We regard the video synthesis
task as generating a sequence of images sharing the same contents but varying
in motions. However, most previous video synthesis frameworks based on
pre-trained image generators treat content and motion generation separately,
leading to unrealistic generated videos. Therefore, we design a novel framework
to build the motion space, aiming to achieve content consistency and fast
convergence for video generation. We present MotionVideoGAN, a novel video
generator synthesizing videos based on the motion space learned by pre-trained
image pair generators. Firstly, we propose an image pair generator named
MotionStyleGAN to generate image pairs sharing the same contents and producing
various motions. Then we manage to acquire motion codes to edit one image in
the generated image pairs and keep the other unchanged. The motion codes help
us edit images within the motion space since the edited image shares the same
contents with the other unchanged one in image pairs. Finally, we introduce a
latent code generator to produce latent code sequences using motion codes for
video generation. Our approach achieves state-of-the-art performance on the
most complex video dataset ever used for unconditional video generation
evaluation, UCF101.
- Abstract(参考訳): 強力なイメージジェネレータが提供する高品質なレンダリングにより、ビデオ生成は急速に進歩した。
映像合成タスクは,同一コンテンツを共有しながら動作が変化する画像列を生成するものである。
しかし、事前学習された画像生成装置に基づく以前のビデオ合成フレームワークの多くは、コンテンツと動画の生成を別々に処理し、非現実的なビデオを生成する。
そこで我々は,映像生成のためのコンテンツ一貫性と高速収束を実現するために,動き空間を構築するための新しいフレームワークを設計する。
我々は、事前訓練された画像ペア生成器によって学習された動き空間に基づいて、動画を合成する新しいビデオジェネレータであるMotionVideoGANを紹介する。
まず、同じコンテンツを共有する画像ペアを生成し、様々な動きを生成するmotionstyleganという画像ペア生成器を提案する。
そして、我々は、生成した画像ペア内の1つの画像を編集し、もう1つの画像を変更しないモーションコードを取得する。
移動符号は、編集された画像が同じ内容を共有するため、移動空間内の画像を編集するのに役立ちます。
最後に,ビデオ生成にモーションコードを用いた潜在コードシーケンスを生成するための潜在コードジェネレータを提案する。
提案手法は,未条件のビデオ生成評価に使用される最も複雑なビデオデータセットであるUCF101に対して,最先端のパフォーマンスを実現する。
関連論文リスト
- EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture [11.587428534308945]
EasyAnimateは、高性能な結果を得るためにトランスフォーマーアーキテクチャのパワーを利用する、ビデオ生成の先進的な方法である。
動作モジュールブロックを組み込んで,3次元映像生成の複雑さに対応するために,当初2次元画像合成用に設計されたDiTフレームワークを拡張した。
我々は、データ前処理、VAEトレーニング、DiTモデルトレーニング、エンドツーエンドのビデオ推論といった側面を含む、DiTに基づくビデオ制作のための総合的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-05-29T11:11:07Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - One Style is All you Need to Generate a Video [0.9558392439655012]
学習された正弦波基底の集合に基づく新しい時間発生器を提案する。
本手法は,画像の内容に依存しない様々な動作の動的表現を学習し,異なるアクター間で伝達することができる。
論文 参考訳(メタデータ) (2023-10-27T01:17:48Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。