論文の概要: MagicPose: Realistic Human Poses and Facial Expressions Retargeting with
Identity-aware Diffusion
- arxiv url: http://arxiv.org/abs/2311.12052v2
- Date: Fri, 2 Feb 2024 08:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:16:46.940926
- Title: MagicPose: Realistic Human Poses and Facial Expressions Retargeting with
Identity-aware Diffusion
- Title(参考訳): MagicPose: アイデンティティを意識した拡散によるリアルな人間の可能性と表情のリターゲティング
- Authors: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian
Song, Qing Yan, Yizhe Zhu, Xiao Yang, Mohammad Soleymani
- Abstract要約: 人間の2次元ポーズと表情の拡散に基づくモデルであるMagicPoseを提案する。
画像拡散モデルの事前の知識を活用することで、MagicPoseは目に見えない人間のアイデンティティや複雑なポーズをうまく一般化する。
提案したモデルは使いやすく、安定拡散に対するプラグインモジュール/拡張と見なすことができる。
- 参考スコア(独自算出の注目度): 23.374396987698603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose MagicPose, a diffusion-based model for 2D human pose
and facial expression retargeting. Specifically, given a reference image, we
aim to generate a person's new images by controlling the poses and facial
expressions while keeping the identity unchanged. To this end, we propose a
two-stage training strategy to disentangle human motions and appearance (e.g.,
facial expressions, skin tone and dressing), consisting of (1) the pre-training
of an appearance-control block and (2) learning appearance-disentangled pose
control. Our novel design enables robust appearance control over generated
human images, including body, facial attributes, and even background. By
leveraging the prior knowledge of image diffusion models, MagicPose generalizes
well to unseen human identities and complex poses without the need for
additional fine-tuning. Moreover, the proposed model is easy to use and can be
considered as a plug-in module/extension to Stable Diffusion.
- Abstract(参考訳): 本研究では,2次元ポーズと表情再ターゲティングのための拡散モデルであるMagicPoseを提案する。
具体的には、参照画像から、ポーズや表情を制御し、同一性を保ちながら人物の新たなイメージを生成することを目的とする。
そこで本研究では,(1)外見制御ブロックの事前学習と(2)外見制御を学習することからなる,人間の動作と外観(表情,肌の色,着衣など)を両立させる2段階のトレーニング戦略を提案する。
我々の新しいデザインは、人体、顔の特徴、背景など、生成した人間の画像に対して堅牢な外観制御を可能にする。
画像拡散モデルの事前知識を活用することで、magicposeは、追加の微調整を必要とせずに、目に見えない人間のアイデンティティや複雑なポーズにうまく一般化する。
さらに,提案モデルの利用は容易であり,安定拡散に対するプラグインモジュール/拡張と考えられる。
関連論文リスト
- TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model [100.35665852159785]
本研究では,SpeaKing Avatar Reenactment (TALK-Act) フレームワークのためのMotion-Enhanced Textural-Aware ModeLingを提案する。
我々のキーとなる考え方は、拡散モデルにおける明示的な動き誘導によるテクスチャ認知を高めることである。
本モデルは,30秒の個人データのみを用いて,高忠実度2次元アバター再現を実現する。
論文 参考訳(メタデータ) (2024-10-14T16:38:10Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - Synthesizing Moving People with 3D Control [88.68284137105654]
対象とする3次元運動系列の単一画像から人物をアニメーションする拡散モデルに基づくフレームワークを提案する。
まず,1つの画像が与えられた人の見えない部分を幻覚させる拡散モデルについて学習する。
第2に,3次元人間のポーズによって制御される拡散に基づくレンダリングパイプラインを開発する。
論文 参考訳(メタデータ) (2024-01-19T18:59:11Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - POCE: Pose-Controllable Expression Editing [75.7701103792032]
本稿では,新しいポーズ制御可能な表現編集ネットワークであるPOCEについて述べる。
リアルな表情と頭ポーズを同時に生成できる。
学習したモデルは、様々な新しいポーズの下で、現実的で高忠実な表情を生成することができる。
論文 参考訳(メタデータ) (2023-04-18T12:26:19Z) - UPGPT: Universal Diffusion Model for Person Image Generation, Editing
and Pose Transfer [15.15576618501609]
テキスト・ツー・イメージ・モデル(T2I)は、人々の高品質な画像を生成するために使われてきた。
しかし、生成プロセスのランダムな性質のため、その人は外見が異なる。
テキスト,ポーズ,視覚的プロンプトを受け入れるマルチモーダル拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-18T10:05:37Z) - StyleMask: Disentangling the Style Space of StyleGAN2 for Neural Face
Reenactment [47.27033282706179]
本研究では,顔の特徴をそのポーズから切り離すフレームワークを提案する。
提案手法は, 極端なポーズ変動であっても, 高品質な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-27T13:22:35Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。