論文の概要: Copy Motion From One to Another: Fake Motion Video Generation
- arxiv url: http://arxiv.org/abs/2205.01373v1
- Date: Tue, 3 May 2022 08:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:46:29.065385
- Title: Copy Motion From One to Another: Fake Motion Video Generation
- Title(参考訳): 動画をコピーする「fake motion video generation」
- Authors: Zhenguang Liu, Sifan Wu, Chejian Xu, Xiang Wang, Lei Zhu, Shuang Wu,
Fuli Feng
- Abstract要約: 人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
- 参考スコア(独自算出の注目度): 53.676020148034034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One compelling application of artificial intelligence is to generate a video
of a target person performing arbitrary desired motion (from a source person).
While the state-of-the-art methods are able to synthesize a video demonstrating
similar broad stroke motion details, they are generally lacking in texture
details. A pertinent manifestation appears as distorted face, feet, and hands,
and such flaws are very sensitively perceived by human observers. Furthermore,
current methods typically employ GANs with a L2 loss to assess the authenticity
of the generated videos, inherently requiring a large amount of training
samples to learn the texture details for adequate video generation. In this
work, we tackle these challenges from three aspects: 1) We disentangle each
video frame into foreground (the person) and background, focusing on generating
the foreground to reduce the underlying dimension of the network output. 2) We
propose a theoretically motivated Gromov-Wasserstein loss that facilitates
learning the mapping from a pose to a foreground image. 3) To enhance texture
details, we encode facial features with geometric guidance and employ local
GANs to refine the face, feet, and hands. Extensive experiments show that our
method is able to generate realistic target person videos, faithfully copying
complex motions from a source person. Our code and datasets are released at
https://github.com/Sifann/FakeMotion
- Abstract(参考訳): 人工知能の説得力のある応用の1つは、(ソースから)任意の所望の動作を行う対象者のビデオを生成することである。
最先端の手法は、同様の広いストロークの動きの詳細を示すビデオを合成することができるが、テクスチャの詳細は一般的に欠けている。
ゆがみのある顔、足、手のように見えるが、そのような欠陥は人間の観察者によって非常に敏感に認識されている。
さらに、現在の手法では、通常、生成されたビデオの信頼性を評価するためにL2損失のGANを使用し、ビデオ生成に必要なテクスチャの詳細を学ぶために、大量のトレーニングサンプルを必要とする。
この作業では、これらの課題に3つの側面から取り組みます。
1) 各映像フレームを前景(人物)と背景に切り離し, ネットワーク出力の基礎となる寸法を減らすために前景を生成することに集中する。
2) ポーズから前景画像へのマッピングの学習を容易にする理論的動機づけたGromov-Wasserstein損失を提案する。
3) テクスチャの詳細性を高めるため, 顔の特徴を幾何学的ガイダンスでエンコードし, 顔, 足, 手を改良するために局所的なGANを用いる。
広範に実験した結果,本手法は対象人物の複雑な動きを忠実に再現し,現実的な対象人物映像を生成できることがわかった。
私たちのコードとデータセットはhttps://github.com/Sifann/FakeMotionで公開されています。
関連論文リスト
- Do As I Do: Pose Guided Human Motion Copy [39.40271266234068]
モーションコピーは、人工知能とコンピュータビジョンにおいて興味深いが難しい課題だ。
既存のアプローチでは、通常、ターゲットのフェイクビデオを生成するために、L1またはL2損失の従来のGANを採用する。
連続学習を促進するために,ポーズ・ツー・アジュアンス生成におけるエピソード記憶モジュールを提案する。
提案手法は,PSNRとFIDをそれぞれ7.2%,12.4%改善した。
論文 参考訳(メタデータ) (2024-06-24T12:41:51Z) - Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - Synthesizing Moving People with 3D Control [81.92710208308684]
対象とする3次元運動系列の単一画像から人物をアニメーションする拡散モデルに基づくフレームワークを提案する。
まず,1つの画像が与えられた人の見えない部分を幻覚させる拡散モデルについて学習する。
第2に,3次元人間のポーズによって制御される拡散に基づくレンダリングパイプラインを開発する。
論文 参考訳(メタデータ) (2024-01-19T18:59:11Z) - DaGAN++: Depth-Aware Generative Adversarial Network for Talking Head
Video Generation [18.511092587156657]
顔画像から高密度な3次元顔形状を学習するための新しい自己教師手法を提案する。
また,画素レベルの不確実性を学習し,幾何学習のためのより信頼性の高い剛体移動画素を知覚する戦略を提案する。
我々は,3D対応のクロスモーダル(e,外見,深度)アテンション機構を開発し,粗い方法で顔のジオメトリーを捉える。
論文 参考訳(メタデータ) (2023-05-10T14:58:33Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - Depth-Aware Generative Adversarial Network for Talking Head Video
Generation [15.43672834991479]
トーキングヘッドビデオ生成は、所定のソース画像と駆動ビデオからそれぞれ識別情報とポーズ情報を含む合成人間の顔ビデオを作成することを目的としている。
このタスクの既存の作業は、入力画像から学んだ2次元表現(外観や動きなど)に大きく依存している。
本稿では,顔画像から高密度な3次元形状(深度)を自動的に復元する自己教師付き幾何学学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-13T09:32:22Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Detecting Deepfake Videos Using Euler Video Magnification [1.8506048493564673]
Deepfakeのビデオは、高度な機械学習技術を使ってビデオを操作している。
本稿では,ディープフェイク映像の識別技術について検討する。
提案手法では,Euler手法から抽出した特徴を用いて,偽造映像と未修正映像を分類する3つのモデルを訓練する。
論文 参考訳(メタデータ) (2021-01-27T17:37:23Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。