論文の概要: MagicDance: Realistic Human Dance Video Generation with Motions & Facial
Expressions Transfer
- arxiv url: http://arxiv.org/abs/2311.12052v1
- Date: Sat, 18 Nov 2023 10:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 03:51:56.738252
- Title: MagicDance: Realistic Human Dance Video Generation with Motions & Facial
Expressions Transfer
- Title(参考訳): MagicDance: 動きと表情を伝達したリアルな人間のダンスビデオ生成
- Authors: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian
Song, Qing Yan, Xiao Yang, Mohammad Soleymani
- Abstract要約: MagicDanceは、2Dの人間の動きと、挑戦的な人間のダンスビデオの表情伝達のための拡散ベースのモデルである。
本研究では,人間の動作と外見を両立させるための2段階のトレーニング戦略を提案する。
我々の新しいデザインは、時間的に一貫した上半身、顔の特徴、さらには背景を持つ堅牢な外観制御を可能にする。
- 参考スコア(独自算出の注目度): 19.341412766018028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose MagicDance, a diffusion-based model for 2D human
motion and facial expression transfer on challenging human dance videos.
Specifically, we aim to generate human dance videos of any target identity
driven by novel pose sequences while keeping the identity unchanged. To this
end, we propose a two-stage training strategy to disentangle human motions and
appearance (e.g., facial expressions, skin tone and dressing), consisting of
the pretraining of an appearance-control block and fine-tuning of an
appearance-pose-joint-control block over human dance poses of the same dataset.
Our novel design enables robust appearance control with temporally consistent
upper body, facial attributes, and even background. The model also generalizes
well on unseen human identities and complex motion sequences without the need
for any fine-tuning with additional data with diverse human attributes by
leveraging the prior knowledge of image diffusion models. Moreover, the
proposed model is easy to use and can be considered as a plug-in
module/extension to Stable Diffusion. We also demonstrate the model's ability
for zero-shot 2D animation generation, enabling not only the appearance
transfer from one identity to another but also allowing for cartoon-like
stylization given only pose inputs. Extensive experiments demonstrate our
superior performance on the TikTok dataset.
- Abstract(参考訳): 本研究では,人間のダンスビデオに対する2次元動作と表情の伝達のための拡散モデルであるmagicdanceを提案する。
具体的には、新規なポーズシーケンスによって駆動されるターゲットアイデンティティの人間ダンスビデオを生成し、そのアイデンティティを一定に保ったままにすることを目的とする。
そこで本研究では,人間の動作や外観(表情,肌のトーン,ドレッシングなど)を乱すための2段階のトレーニング戦略を提案し,同じデータセットの人間のダンスポーズに対して,外見制御ブロックの事前訓練と,外見制御ブロックの微調整を行う。
我々の新しいデザインは、時間的に一貫した上半身、顔の特徴、さらには背景を持つ堅牢な外観制御を可能にする。
モデルはまた、画像拡散モデルの事前の知識を活用することで、さまざまな属性を持つ追加データによる微調整を必要とせずに、目に見えない人間のアイデンティティや複雑なモーションシーケンスをうまく一般化する。
さらに,提案モデルの利用は容易であり,安定拡散に対するプラグインモジュール/拡張と考えられる。
また、モデルがゼロショット2Dアニメーションを生成する能力を示し、あるアイデンティティから別のアイデンティティへの外観移動を可能にするだけでなく、ポーズ入力のみの漫画的なスタイル化を可能にする。
tiktokデータセットの優れたパフォーマンスを示す、広範な実験。
関連論文リスト
- Synthesizing Moving People with 3D Control [88.68284137105654]
対象とする3次元運動系列の単一画像から人物をアニメーションする拡散モデルに基づくフレームワークを提案する。
まず,1つの画像が与えられた人の見えない部分を幻覚させる拡散モデルについて学習する。
第2に,3次元人間のポーズによって制御される拡散に基づくレンダリングパイプラインを開発する。
論文 参考訳(メタデータ) (2024-01-19T18:59:11Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive
Speech-Driven 3D Facial Animation [17.131787821254566]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - POCE: Pose-Controllable Expression Editing [75.7701103792032]
本稿では,新しいポーズ制御可能な表現編集ネットワークであるPOCEについて述べる。
リアルな表情と頭ポーズを同時に生成できる。
学習したモデルは、様々な新しいポーズの下で、現実的で高忠実な表情を生成することができる。
論文 参考訳(メタデータ) (2023-04-18T12:26:19Z) - UPGPT: Universal Diffusion Model for Person Image Generation, Editing
and Pose Transfer [15.15576618501609]
テキスト・ツー・イメージ・モデル(T2I)は、人々の高品質な画像を生成するために使われてきた。
しかし、生成プロセスのランダムな性質のため、その人は外見が異なる。
テキスト,ポーズ,視覚的プロンプトを受け入れるマルチモーダル拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-18T10:05:37Z) - StyleMask: Disentangling the Style Space of StyleGAN2 for Neural Face
Reenactment [47.27033282706179]
本研究では,顔の特徴をそのポーズから切り離すフレームワークを提案する。
提案手法は, 極端なポーズ変動であっても, 高品質な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-27T13:22:35Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - Neural-GIF: Neural Generalized Implicit Functions for Animating People
in Clothing [49.32522765356914]
私たちは、身体のポーズの関数として、服装の人々をアニメーションすることを学びます。
我々は、学習された変形場を非剛性効果のモデルに適用した、空間のすべての点を標準空間にマッピングすることを学ぶ。
ニューラルGIFは生の3Dスキャンに基づいてトレーニングし、詳細な複雑な表面形状と変形を再構築することができる。
論文 参考訳(メタデータ) (2021-08-19T17:25:16Z) - Pose-Guided Human Animation from a Single Image in the Wild [83.86903892201656]
身体ポーズのシーケンスによって制御される人の単一の画像から人間のアニメーションを合成するための新しいポーズ転送方法を提案する。
既存のポーズ転送手法は、新しいシーンに適用する際に重要な視覚的アーティファクトを示す。
我々は,シルエット,衣料ラベル,テクスチャを予測する合成ニューラルネットワークを設計した。
我々は、テスト現場でネットワークを微調整することなく、時間的に一貫した方法で人物のアイデンティティと外観を保存できる人間のアニメーションを合成することができる。
論文 参考訳(メタデータ) (2020-12-07T15:38:29Z) - Liquid Warping GAN with Attention: A Unified Framework for Human Image
Synthesis [58.05389586712485]
我々は、人間の動きの模倣、外見の移入、新しい視点の合成など、人間の画像合成に取り組む。
本稿では,ポーズと形状を乱す3次元ボディーメッシュ回収モジュールを提案する。
我々はまた、人間の動きの模倣、外観伝達、新しいビュー合成を評価するために、新しいデータセット、すなわちiPERデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-18T02:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。