論文の概要: MagicDance: Realistic Human Dance Video Generation with Motions & Facial
Expressions Transfer
- arxiv url: http://arxiv.org/abs/2311.12052v1
- Date: Sat, 18 Nov 2023 10:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 03:51:56.738252
- Title: MagicDance: Realistic Human Dance Video Generation with Motions & Facial
Expressions Transfer
- Title(参考訳): MagicDance: 動きと表情を伝達したリアルな人間のダンスビデオ生成
- Authors: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian
Song, Qing Yan, Xiao Yang, Mohammad Soleymani
- Abstract要約: MagicDanceは、2Dの人間の動きと、挑戦的な人間のダンスビデオの表情伝達のための拡散ベースのモデルである。
本研究では,人間の動作と外見を両立させるための2段階のトレーニング戦略を提案する。
我々の新しいデザインは、時間的に一貫した上半身、顔の特徴、さらには背景を持つ堅牢な外観制御を可能にする。
- 参考スコア(独自算出の注目度): 19.341412766018028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose MagicDance, a diffusion-based model for 2D human
motion and facial expression transfer on challenging human dance videos.
Specifically, we aim to generate human dance videos of any target identity
driven by novel pose sequences while keeping the identity unchanged. To this
end, we propose a two-stage training strategy to disentangle human motions and
appearance (e.g., facial expressions, skin tone and dressing), consisting of
the pretraining of an appearance-control block and fine-tuning of an
appearance-pose-joint-control block over human dance poses of the same dataset.
Our novel design enables robust appearance control with temporally consistent
upper body, facial attributes, and even background. The model also generalizes
well on unseen human identities and complex motion sequences without the need
for any fine-tuning with additional data with diverse human attributes by
leveraging the prior knowledge of image diffusion models. Moreover, the
proposed model is easy to use and can be considered as a plug-in
module/extension to Stable Diffusion. We also demonstrate the model's ability
for zero-shot 2D animation generation, enabling not only the appearance
transfer from one identity to another but also allowing for cartoon-like
stylization given only pose inputs. Extensive experiments demonstrate our
superior performance on the TikTok dataset.
- Abstract(参考訳): 本研究では,人間のダンスビデオに対する2次元動作と表情の伝達のための拡散モデルであるmagicdanceを提案する。
具体的には、新規なポーズシーケンスによって駆動されるターゲットアイデンティティの人間ダンスビデオを生成し、そのアイデンティティを一定に保ったままにすることを目的とする。
そこで本研究では,人間の動作や外観(表情,肌のトーン,ドレッシングなど)を乱すための2段階のトレーニング戦略を提案し,同じデータセットの人間のダンスポーズに対して,外見制御ブロックの事前訓練と,外見制御ブロックの微調整を行う。
我々の新しいデザインは、時間的に一貫した上半身、顔の特徴、さらには背景を持つ堅牢な外観制御を可能にする。
モデルはまた、画像拡散モデルの事前の知識を活用することで、さまざまな属性を持つ追加データによる微調整を必要とせずに、目に見えない人間のアイデンティティや複雑なモーションシーケンスをうまく一般化する。
さらに,提案モデルの利用は容易であり,安定拡散に対するプラグインモジュール/拡張と考えられる。
また、モデルがゼロショット2Dアニメーションを生成する能力を示し、あるアイデンティティから別のアイデンティティへの外観移動を可能にするだけでなく、ポーズ入力のみの漫画的なスタイル化を可能にする。
tiktokデータセットの優れたパフォーマンスを示す、広範な実験。
関連論文リスト
- TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model [100.35665852159785]
本研究では,SpeaKing Avatar Reenactment (TALK-Act) フレームワークのためのMotion-Enhanced Textural-Aware ModeLingを提案する。
我々のキーとなる考え方は、拡散モデルにおける明示的な動き誘導によるテクスチャ認知を高めることである。
本モデルは,30秒の個人データのみを用いて,高忠実度2次元アバター再現を実現する。
論文 参考訳(メタデータ) (2024-10-14T16:38:10Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - Synthesizing Moving People with 3D Control [88.68284137105654]
対象とする3次元運動系列の単一画像から人物をアニメーションする拡散モデルに基づくフレームワークを提案する。
まず,1つの画像が与えられた人の見えない部分を幻覚させる拡散モデルについて学習する。
第2に,3次元人間のポーズによって制御される拡散に基づくレンダリングパイプラインを開発する。
論文 参考訳(メタデータ) (2024-01-19T18:59:11Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - POCE: Pose-Controllable Expression Editing [75.7701103792032]
本稿では,新しいポーズ制御可能な表現編集ネットワークであるPOCEについて述べる。
リアルな表情と頭ポーズを同時に生成できる。
学習したモデルは、様々な新しいポーズの下で、現実的で高忠実な表情を生成することができる。
論文 参考訳(メタデータ) (2023-04-18T12:26:19Z) - UPGPT: Universal Diffusion Model for Person Image Generation, Editing
and Pose Transfer [15.15576618501609]
テキスト・ツー・イメージ・モデル(T2I)は、人々の高品質な画像を生成するために使われてきた。
しかし、生成プロセスのランダムな性質のため、その人は外見が異なる。
テキスト,ポーズ,視覚的プロンプトを受け入れるマルチモーダル拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-18T10:05:37Z) - StyleMask: Disentangling the Style Space of StyleGAN2 for Neural Face
Reenactment [47.27033282706179]
本研究では,顔の特徴をそのポーズから切り離すフレームワークを提案する。
提案手法は, 極端なポーズ変動であっても, 高品質な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-27T13:22:35Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。