論文の概要: A Good Image Generator Is What You Need for High-Resolution Video
Synthesis
- arxiv url: http://arxiv.org/abs/2104.15069v1
- Date: Fri, 30 Apr 2021 15:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:36:36.766154
- Title: A Good Image Generator Is What You Need for High-Resolution Video
Synthesis
- Title(参考訳): 高分解能ビデオ合成に必要な良い画像生成装置
- Authors: Yu Tian, Jian Ren, Menglei Chai, Kyle Olszewski, Xi Peng, Dimitris N.
Metaxas, Sergey Tulyakov
- Abstract要約: 現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
- 参考スコア(独自算出の注目度): 73.82857768949651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image and video synthesis are closely related areas aiming at generating
content from noise. While rapid progress has been demonstrated in improving
image-based models to handle large resolutions, high-quality renderings, and
wide variations in image content, achieving comparable video generation results
remains problematic. We present a framework that leverages contemporary image
generators to render high-resolution videos. We frame the video synthesis
problem as discovering a trajectory in the latent space of a pre-trained and
fixed image generator. Not only does such a framework render high-resolution
videos, but it also is an order of magnitude more computationally efficient. We
introduce a motion generator that discovers the desired trajectory, in which
content and motion are disentangled. With such a representation, our framework
allows for a broad range of applications, including content and motion
manipulation. Furthermore, we introduce a new task, which we call cross-domain
video synthesis, in which the image and motion generators are trained on
disjoint datasets belonging to different domains. This allows for generating
moving objects for which the desired video data is not available. Extensive
experiments on various datasets demonstrate the advantages of our methods over
existing video generation techniques. Code will be released at
https://github.com/snap-research/MoCoGAN-HD.
- Abstract(参考訳): 画像と映像の合成は、ノイズからコンテンツを生成するための密接な関連分野である。
大きな解像度、高品質なレンダリング、画像コンテンツの幅広いバリエーションを扱うための画像ベースモデルの改善が急速に進んでいるが、ビデオ生成結果に匹敵する結果が得られていない。
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
このようなフレームワークは高解像度ビデオをレンダリングするだけでなく、計算効率も桁違いに向上している。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
このような表現により、我々のフレームワークは、コンテンツやモーション操作を含む幅広いアプリケーションを可能にする。
さらに,我々はクロスドメインビデオ合成と呼ばれる新しいタスクを導入し,画像とモーションジェネレータを,異なるドメインに属する異種データセット上でトレーニングする。
これにより、所望のビデオデータが利用できない移動オブジェクトを生成することができる。
各種データセットに対する大規模な実験により,既存の映像生成技術に対する手法の利点が示された。
コードはhttps://github.com/snap-research/MoCoGAN-HDでリリースされる。
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - MotionVideoGAN: A Novel Video Generator Based on the Motion Space
Learned from Image Pairs [16.964371778504297]
我々は、事前訓練された画像ペア生成器によって学習された動き空間に基づいて、動画を合成する新しいビデオジェネレータであるMotionVideoGANを紹介する。
モーションコードは、編集された画像が同じ内容を共有するため、モーション空間内の画像を編集するのに役立ちます。
提案手法は,未条件のビデオ生成評価に使用される最も複雑なビデオデータセットであるUCF101に対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-06T05:52:13Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。