論文の概要: AniFaceDiff: High-Fidelity Face Reenactment via Facial Parametric Conditioned Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.13272v1
- Date: Wed, 19 Jun 2024 07:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 22:49:46.567464
- Title: AniFaceDiff: High-Fidelity Face Reenactment via Facial Parametric Conditioned Diffusion Models
- Title(参考訳): AniFaceDiff:顔面パラメトリック条件拡散モデルによる高忠実顔再現
- Authors: Ken Chen, Sachith Seneviratne, Wei Wang, Dongting Hu, Sanjay Saha, Md. Tarek Hasan, Sanka Rasnayaka, Tamasha Malepathirana, Mingming Gong, Saman Halgamuge,
- Abstract要約: 顔再現とは、ポーズと表情を、参照(運転)ビデオから静的な顔(ソース)画像に転送する過程を指す。
この領域における以前の研究は、顔を生成するために制御可能な深層生成モデルを訓練することで大きな進歩を遂げた。
本稿では,AniFaceDiffと呼ばれる安定拡散に基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 33.39336530229545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face reenactment refers to the process of transferring the pose and facial expressions from a reference (driving) video onto a static facial (source) image while maintaining the original identity of the source image. Previous research in this domain has made significant progress by training controllable deep generative models to generate faces based on specific identity, pose and expression conditions. However, the mechanisms used in these methods to control pose and expression often inadvertently introduce identity information from the driving video, while also causing a loss of expression-related details. This paper proposes a new method based on Stable Diffusion, called AniFaceDiff, incorporating a new conditioning module for high-fidelity face reenactment. First, we propose an enhanced 2D facial snapshot conditioning approach by facial shape alignment to prevent the inclusion of identity information from the driving video. Then, we introduce an expression adapter conditioning mechanism to address the potential loss of expression-related information. Our approach effectively preserves pose and expression fidelity from the driving video while retaining the identity and fine details of the source image. Through experiments on the VoxCeleb dataset, we demonstrate that our method achieves state-of-the-art results in face reenactment, showcasing superior image quality, identity preservation, and expression accuracy, especially for cross-identity scenarios. Considering the ethical concerns surrounding potential misuse, we analyze the implications of our method, evaluate current state-of-the-art deepfake detectors, and identify their shortcomings to guide future research.
- Abstract(参考訳): 顔再現とは、ポーズと表情を基準(運転)ビデオから静的な顔(音源)画像に転送する過程を指す。
この領域における以前の研究は、特定のアイデンティティ、ポーズ、表現条件に基づいて顔を生成する制御可能な深層生成モデルを訓練することで大きな進歩を遂げた。
しかし,これらの手法で表現とポーズを制御するメカニズムは,運転映像からの識別情報を不注意に導入すると同時に,表現関連の詳細が失われることも少なくない。
本稿では,AniFaceDiffと呼ばれる安定拡散に基づく新しい手法を提案する。
まず,顔形状アライメントによる2次元顔画像条件付け手法を提案する。
次に,表現関連情報の潜在的な損失に対応するための表現アダプタ条件付け機構を提案する。
本手法は,画像の同一性や細部を保ちながら,映像からのポーズや表現の忠実さを効果的に維持する。
VoxCelebデータセットを用いた実験により, 顔の再現, 優れた画像品質, アイデンティティの保存, 表現精度, 特にクロスアイデンティティのシナリオにおいて, この手法が実現できることが実証された。
潜在的な誤用に関する倫理的懸念を考慮し,本手法の意義を分析し,最先端のディープフェイク検出器の評価を行い,今後の研究を導く上での問題点を明らかにする。
関連論文リスト
- Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance [30.225654002561512]
Animate Anyone 2を紹介する。
本研究では,文字と環境の関係をより効果的に特徴づける形状に依存しないマスク戦略を提案する。
また、モデルがより多様な動きパターンを扱えるように、ポーズ変調戦略を導入する。
論文 参考訳(メタデータ) (2025-02-10T04:20:11Z) - X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians [51.46168990249278]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。
GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文 参考訳(メタデータ) (2023-12-04T18:55:45Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。
本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T09:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。