論文の概要: Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis
- arxiv url: http://arxiv.org/abs/2102.13329v1
- Date: Fri, 26 Feb 2021 06:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:52:41.673447
- Title: Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis
- Title(参考訳): Dual-MTGAN:画像間合成のための確率的・決定論的動き伝達
- Authors: Fu-En Yang, Jing-Cheng Chang, Yuan-Hao Lee, Yu-Chiang Frank Wang
- Abstract要約: 本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
- 参考スコア(独自算出の注目度): 38.41763708731513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating videos with content and motion variations is a challenging task in
computer vision. While the recent development of GAN allows video generation
from latent representations, it is not easy to produce videos with particular
content of motion patterns of interest. In this paper, we propose Dual Motion
Transfer GAN (Dual-MTGAN), which takes image and video data as inputs while
learning disentangled content and motion representations. Our Dual-MTGAN is
able to perform deterministic motion transfer and stochastic motion generation.
Based on a given image, the former preserves the input content and transfers
motion patterns observed from another video sequence, and the latter directly
produces videos with plausible yet diverse motion patterns based on the input
image. The proposed model is trained in an end-to-end manner, without the need
to utilize pre-defined motion features like pose or facial landmarks. Our
quantitative and qualitative results would confirm the effectiveness and
robustness of our model in addressing such conditioned image-to-video tasks.
- Abstract(参考訳): コンテンツとモーションのバリエーションでビデオを生成することは、コンピュータビジョンで難しい作業です。
GANの最近の開発により、潜在表現から映像を生成することができるが、興味ある動きパターンの特定の内容の動画を制作するのは容易ではない。
本稿では,映像データと映像データを入力として利用し,コンテンツや動きの表現を学習するDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーと確率的モーションジェネレーションを実行することができる。
与えられた画像に基づいて、前者は入力内容を保存し、別のビデオシーケンスから観察されたモーションパターンを転送し、後者は入力画像に基づいて実行可能なが多様なモーションパターンを持つビデオを直接生成する。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
定量的・定性的な結果から,このような条件付き映像対ビデオ課題に対するモデルの有効性と頑健性を確認した。
関連論文リスト
- MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation [65.74312406211213]
本稿では,映像生成の文脈で撮影映像を設計する手法を提案する。
I2V合成において,従来のコンピュータグラフィックスと現代映像生成技術からの洞察を結合することにより,3次元動作制御を実現する能力を示す。
論文 参考訳(メタデータ) (2025-02-06T18:41:04Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。