論文の概要: MagicPose: Realistic Human Poses and Facial Expressions Retargeting with
Identity-aware Diffusion
- arxiv url: http://arxiv.org/abs/2311.12052v2
- Date: Fri, 2 Feb 2024 08:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:16:46.940926
- Title: MagicPose: Realistic Human Poses and Facial Expressions Retargeting with
Identity-aware Diffusion
- Title(参考訳): MagicPose: アイデンティティを意識した拡散によるリアルな人間の可能性と表情のリターゲティング
- Authors: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian
Song, Qing Yan, Yizhe Zhu, Xiao Yang, Mohammad Soleymani
- Abstract要約: 人間の2次元ポーズと表情の拡散に基づくモデルであるMagicPoseを提案する。
画像拡散モデルの事前の知識を活用することで、MagicPoseは目に見えない人間のアイデンティティや複雑なポーズをうまく一般化する。
提案したモデルは使いやすく、安定拡散に対するプラグインモジュール/拡張と見なすことができる。
- 参考スコア(独自算出の注目度): 23.374396987698603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose MagicPose, a diffusion-based model for 2D human pose
and facial expression retargeting. Specifically, given a reference image, we
aim to generate a person's new images by controlling the poses and facial
expressions while keeping the identity unchanged. To this end, we propose a
two-stage training strategy to disentangle human motions and appearance (e.g.,
facial expressions, skin tone and dressing), consisting of (1) the pre-training
of an appearance-control block and (2) learning appearance-disentangled pose
control. Our novel design enables robust appearance control over generated
human images, including body, facial attributes, and even background. By
leveraging the prior knowledge of image diffusion models, MagicPose generalizes
well to unseen human identities and complex poses without the need for
additional fine-tuning. Moreover, the proposed model is easy to use and can be
considered as a plug-in module/extension to Stable Diffusion.
- Abstract(参考訳): 本研究では,2次元ポーズと表情再ターゲティングのための拡散モデルであるMagicPoseを提案する。
具体的には、参照画像から、ポーズや表情を制御し、同一性を保ちながら人物の新たなイメージを生成することを目的とする。
そこで本研究では,(1)外見制御ブロックの事前学習と(2)外見制御を学習することからなる,人間の動作と外観(表情,肌の色,着衣など)を両立させる2段階のトレーニング戦略を提案する。
我々の新しいデザインは、人体、顔の特徴、背景など、生成した人間の画像に対して堅牢な外観制御を可能にする。
画像拡散モデルの事前知識を活用することで、magicposeは、追加の微調整を必要とせずに、目に見えない人間のアイデンティティや複雑なポーズにうまく一般化する。
さらに,提案モデルの利用は容易であり,安定拡散に対するプラグインモジュール/拡張と考えられる。
関連論文リスト
- Synthesizing Moving People with 3D Control [88.68284137105654]
対象とする3次元運動系列の単一画像から人物をアニメーションする拡散モデルに基づくフレームワークを提案する。
まず,1つの画像が与えられた人の見えない部分を幻覚させる拡散モデルについて学習する。
第2に,3次元人間のポーズによって制御される拡散に基づくレンダリングパイプラインを開発する。
論文 参考訳(メタデータ) (2024-01-19T18:59:11Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive
Speech-Driven 3D Facial Animation [17.131787821254566]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - POCE: Pose-Controllable Expression Editing [75.7701103792032]
本稿では,新しいポーズ制御可能な表現編集ネットワークであるPOCEについて述べる。
リアルな表情と頭ポーズを同時に生成できる。
学習したモデルは、様々な新しいポーズの下で、現実的で高忠実な表情を生成することができる。
論文 参考訳(メタデータ) (2023-04-18T12:26:19Z) - UPGPT: Universal Diffusion Model for Person Image Generation, Editing
and Pose Transfer [15.15576618501609]
テキスト・ツー・イメージ・モデル(T2I)は、人々の高品質な画像を生成するために使われてきた。
しかし、生成プロセスのランダムな性質のため、その人は外見が異なる。
テキスト,ポーズ,視覚的プロンプトを受け入れるマルチモーダル拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-18T10:05:37Z) - StyleMask: Disentangling the Style Space of StyleGAN2 for Neural Face
Reenactment [47.27033282706179]
本研究では,顔の特徴をそのポーズから切り離すフレームワークを提案する。
提案手法は, 極端なポーズ変動であっても, 高品質な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-27T13:22:35Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - Neural-GIF: Neural Generalized Implicit Functions for Animating People
in Clothing [49.32522765356914]
私たちは、身体のポーズの関数として、服装の人々をアニメーションすることを学びます。
我々は、学習された変形場を非剛性効果のモデルに適用した、空間のすべての点を標準空間にマッピングすることを学ぶ。
ニューラルGIFは生の3Dスキャンに基づいてトレーニングし、詳細な複雑な表面形状と変形を再構築することができる。
論文 参考訳(メタデータ) (2021-08-19T17:25:16Z) - Pose-Guided Human Animation from a Single Image in the Wild [83.86903892201656]
身体ポーズのシーケンスによって制御される人の単一の画像から人間のアニメーションを合成するための新しいポーズ転送方法を提案する。
既存のポーズ転送手法は、新しいシーンに適用する際に重要な視覚的アーティファクトを示す。
我々は,シルエット,衣料ラベル,テクスチャを予測する合成ニューラルネットワークを設計した。
我々は、テスト現場でネットワークを微調整することなく、時間的に一貫した方法で人物のアイデンティティと外観を保存できる人間のアニメーションを合成することができる。
論文 参考訳(メタデータ) (2020-12-07T15:38:29Z) - Liquid Warping GAN with Attention: A Unified Framework for Human Image
Synthesis [58.05389586712485]
我々は、人間の動きの模倣、外見の移入、新しい視点の合成など、人間の画像合成に取り組む。
本稿では,ポーズと形状を乱す3次元ボディーメッシュ回収モジュールを提案する。
我々はまた、人間の動きの模倣、外観伝達、新しいビュー合成を評価するために、新しいデータセット、すなわちiPERデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-18T02:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。