論文の概要: Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis
- arxiv url: http://arxiv.org/abs/2102.13329v1
- Date: Fri, 26 Feb 2021 06:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:52:41.673447
- Title: Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis
- Title(参考訳): Dual-MTGAN:画像間合成のための確率的・決定論的動き伝達
- Authors: Fu-En Yang, Jing-Cheng Chang, Yuan-Hao Lee, Yu-Chiang Frank Wang
- Abstract要約: 本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
- 参考スコア(独自算出の注目度): 38.41763708731513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating videos with content and motion variations is a challenging task in
computer vision. While the recent development of GAN allows video generation
from latent representations, it is not easy to produce videos with particular
content of motion patterns of interest. In this paper, we propose Dual Motion
Transfer GAN (Dual-MTGAN), which takes image and video data as inputs while
learning disentangled content and motion representations. Our Dual-MTGAN is
able to perform deterministic motion transfer and stochastic motion generation.
Based on a given image, the former preserves the input content and transfers
motion patterns observed from another video sequence, and the latter directly
produces videos with plausible yet diverse motion patterns based on the input
image. The proposed model is trained in an end-to-end manner, without the need
to utilize pre-defined motion features like pose or facial landmarks. Our
quantitative and qualitative results would confirm the effectiveness and
robustness of our model in addressing such conditioned image-to-video tasks.
- Abstract(参考訳): コンテンツとモーションのバリエーションでビデオを生成することは、コンピュータビジョンで難しい作業です。
GANの最近の開発により、潜在表現から映像を生成することができるが、興味ある動きパターンの特定の内容の動画を制作するのは容易ではない。
本稿では,映像データと映像データを入力として利用し,コンテンツや動きの表現を学習するDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーと確率的モーションジェネレーションを実行することができる。
与えられた画像に基づいて、前者は入力内容を保存し、別のビデオシーケンスから観察されたモーションパターンを転送し、後者は入力画像に基づいて実行可能なが多様なモーションパターンを持つビデオを直接生成する。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
定量的・定性的な結果から,このような条件付き映像対ビデオ課題に対するモデルの有効性と頑健性を確認した。
関連論文リスト
- Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z) - Motion and Appearance Adaptation for Cross-Domain Motion Transfer [36.98500700394921]
モーショントランスファーは、ドライブビデオのモーションをソースイメージに転送することを目的としている。
伝統的な単一ドメインの動き伝達アプローチは、しばしば顕著な成果物を生み出す。
クロスドメインな動き伝達のための動き適応(MAA)手法を提案する。
論文 参考訳(メタデータ) (2022-09-29T03:24:47Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。