Fugu-MT 論文翻訳(概要): AniFaceDiff: High-Fidelity Face Reenactment via Facial Parametric Conditioned Diffusion Models

論文の概要: AniFaceDiff: High-Fidelity Face Reenactment via Facial Parametric Conditioned Diffusion Models

arxiv url: http://arxiv.org/abs/2406.13272v1
Date: Wed, 19 Jun 2024 07:08:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 22:49:46.567464
Title: AniFaceDiff: High-Fidelity Face Reenactment via Facial Parametric Conditioned Diffusion Models
Title（参考訳）: AniFaceDiff:顔面パラメトリック条件拡散モデルによる高忠実顔再現
Authors: Ken Chen, Sachith Seneviratne, Wei Wang, Dongting Hu, Sanjay Saha, Md. Tarek Hasan, Sanka Rasnayaka, Tamasha Malepathirana, Mingming Gong, Saman Halgamuge,
Abstract要約: 顔再現とは、ポーズと表情を、参照(運転)ビデオから静的な顔(ソース)画像に転送する過程を指す。この領域における以前の研究は、顔を生成するために制御可能な深層生成モデルを訓練することで大きな進歩を遂げた。本稿では,AniFaceDiffと呼ばれる安定拡散に基づく新しい手法を提案する。
参考スコア（独自算出の注目度）: 33.39336530229545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Face reenactment refers to the process of transferring the pose and facial expressions from a reference (driving) video onto a static facial (source) image while maintaining the original identity of the source image. Previous research in this domain has made significant progress by training controllable deep generative models to generate faces based on specific identity, pose and expression conditions. However, the mechanisms used in these methods to control pose and expression often inadvertently introduce identity information from the driving video, while also causing a loss of expression-related details. This paper proposes a new method based on Stable Diffusion, called AniFaceDiff, incorporating a new conditioning module for high-fidelity face reenactment. First, we propose an enhanced 2D facial snapshot conditioning approach by facial shape alignment to prevent the inclusion of identity information from the driving video. Then, we introduce an expression adapter conditioning mechanism to address the potential loss of expression-related information. Our approach effectively preserves pose and expression fidelity from the driving video while retaining the identity and fine details of the source image. Through experiments on the VoxCeleb dataset, we demonstrate that our method achieves state-of-the-art results in face reenactment, showcasing superior image quality, identity preservation, and expression accuracy, especially for cross-identity scenarios. Considering the ethical concerns surrounding potential misuse, we analyze the implications of our method, evaluate current state-of-the-art deepfake detectors, and identify their shortcomings to guide future research.
Abstract（参考訳）: 顔再現とは、ポーズと表情を基準(運転)ビデオから静的な顔(音源)画像に転送する過程を指す。この領域における以前の研究は、特定のアイデンティティ、ポーズ、表現条件に基づいて顔を生成する制御可能な深層生成モデルを訓練することで大きな進歩を遂げた。しかし,これらの手法で表現とポーズを制御するメカニズムは,運転映像からの識別情報を不注意に導入すると同時に,表現関連の詳細が失われることも少なくない。本稿では,AniFaceDiffと呼ばれる安定拡散に基づく新しい手法を提案する。まず,顔形状アライメントによる2次元顔画像条件付け手法を提案する。次に,表現関連情報の潜在的な損失に対応するための表現アダプタ条件付け機構を提案する。本手法は,画像の同一性や細部を保ちながら,映像からのポーズや表現の忠実さを効果的に維持する。 VoxCelebデータセットを用いた実験により, 顔の再現, 優れた画像品質, アイデンティティの保存, 表現精度, 特にクロスアイデンティティのシナリオにおいて, この手法が実現できることが実証された。潜在的な誤用に関する倫理的懸念を考慮し,本手法の意義を分析し,最先端のディープフェイク検出器の評価を行い,今後の研究を導く上での問題点を明らかにする。

関連論文リスト

Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance [30.225654002561512]
Animate Anyone 2を紹介する。本研究では,文字と環境の関係をより効果的に特徴づける形状に依存しないマスク戦略を提案する。また、モデルがより多様な動きパターンを扱えるように、ポーズ変調戦略を導入する。
論文参考訳（メタデータ） (2025-02-10T04:20:11Z)
X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文参考訳（メタデータ） (2025-01-17T08:10:53Z)
Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文参考訳（メタデータ） (2024-12-19T05:02:30Z)
OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-26T07:07:48Z)
VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。 SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。 VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-05-28T13:18:32Z)
DiffusionFace: Towards a Comprehensive Dataset for Diffusion-Based Face Forgery Analysis [71.40724659748787]
DiffusionFaceは、最初の拡散ベースのフェイスフォージェリーデータセットである。非条件およびテキストガイドの顔画像生成、Img2Img、Inpaint、Diffusionベースの顔交換アルゴリズムなど、さまざまなフォージェリーカテゴリをカバーする。重要なメタデータと、評価のための実世界のインターネットソースの偽顔画像データセットを提供する。
論文参考訳（メタデータ） (2024-03-27T11:32:44Z)
DiffusionAct: Controllable Diffusion Autoencoder for One-shot Face Reenactment [34.821255203019554]
ビデオ駆動型ニューラルフェイスの再現は、元の顔のアイデンティティと外観をうまく保存する現実的な顔画像を合成することを目的としている。拡散確率モデル(DPM)の最近の進歩は、高品質な現実画像の生成を可能にする。本稿では,拡散モデルのフォトリアリスティック画像生成を利用して,ニューラルフェイスの再現を行う新しい手法であるDiffusionを提案する。
論文参考訳（メタデータ） (2024-03-25T21:46:53Z)
Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文参考訳（メタデータ） (2024-03-08T08:12:18Z)
GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians [51.46168990249278]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。 GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文参考訳（メタデータ） (2023-12-04T18:55:45Z)
When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文参考訳（メタデータ） (2023-11-29T09:05:14Z)
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文参考訳（メタデータ） (2023-11-28T12:27:15Z)
HyperReenact: One-Shot Reenactment via Jointly Learning to Refine and Retarget Faces [47.27033282706179]
提案手法は,音源識別のリアルな音声頭部画像を生成することを目的とした,HyperReenactと呼ばれるニューラルフェイス再現法を提案する。提案手法は, 単発設定(すなわち, 単一音源フレーム)の下で動作し, 被検体固有の微調整を必要とせず, クロスオブジェクトの再現を可能にする。我々は,VoxCeleb1とVoxCeleb2の標準ベンチマークにおけるいくつかの最先端技術と比較した。
論文参考訳（メタデータ） (2023-07-20T11:59:42Z)
Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-20T09:28:16Z)
Graph-based Generative Face Anonymisation with Pose Preservation [49.18049578591058]
AnonyGANは、顔の匿名化のためのGANベースのソリューションである。ソースアイデンティティに対応する視覚情報を、任意の単一のイメージとして提供される条件IDに置き換える。
論文参考訳（メタデータ） (2021-12-10T12:58:17Z)
Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文参考訳（メタデータ） (2021-06-15T03:10:17Z)
LI-Net: Large-Pose Identity-Preserving Face Reenactment Network [14.472453602392182]
大規模ID保存顔再生ネットワークLI-Netを提案します。特にランドマーク変換器は、走行するランドマーク画像を調整するために採用されている。 Face Rotation ModuleとExpression Enhancing Generatorは、変換されたランドマーク画像をポーズと式の特徴に分離し、それらの属性を別々に再現してアイデンティティ保護顔を生成する。
論文参考訳（メタデータ） (2021-04-07T01:41:21Z)
VAE/WGAN-Based Image Representation Learning For Pose-Preserving Seamless Identity Replacement In Facial Images [15.855376604558977]
We present a novel variational generative adversarial network (VGAN) based on Wasserstein loss。我々のネットワークは、ポーズ保存されたアイデンティティ・モーフィングとアイデンティティ保存されたポーズ・モーフィングの実行に利用できることを示す。
論文参考訳（メタデータ） (2020-03-02T03:35:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。