論文の概要: DiffusionAct: Controllable Diffusion Autoencoder for One-shot Face Reenactment
- arxiv url: http://arxiv.org/abs/2403.17217v1
- Date: Mon, 25 Mar 2024 21:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 19:16:39.729030
- Title: DiffusionAct: Controllable Diffusion Autoencoder for One-shot Face Reenactment
- Title(参考訳): DiffusionAct:ワンショット顔再現のための制御可能な拡散オートエンコーダ
- Authors: Stella Bounareli, Christos Tzelepis, Vasileios Argyriou, Ioannis Patras, Georgios Tzimiropoulos,
- Abstract要約: ビデオ駆動型ニューラルフェイスの再現は、元の顔のアイデンティティと外観をうまく保存する現実的な顔画像を合成することを目的としている。
拡散確率モデル(DPM)の最近の進歩は、高品質な現実画像の生成を可能にする。
本稿では,拡散モデルのフォトリアリスティック画像生成を利用して,ニューラルフェイスの再現を行う新しい手法であるDiffusionを提案する。
- 参考スコア(独自算出の注目度): 34.821255203019554
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video-driven neural face reenactment aims to synthesize realistic facial images that successfully preserve the identity and appearance of a source face, while transferring the target head pose and facial expressions. Existing GAN-based methods suffer from either distortions and visual artifacts or poor reconstruction quality, i.e., the background and several important appearance details, such as hair style/color, glasses and accessories, are not faithfully reconstructed. Recent advances in Diffusion Probabilistic Models (DPMs) enable the generation of high-quality realistic images. To this end, in this paper we present DiffusionAct, a novel method that leverages the photo-realistic image generation of diffusion models to perform neural face reenactment. Specifically, we propose to control the semantic space of a Diffusion Autoencoder (DiffAE), in order to edit the facial pose of the input images, defined as the head pose orientation and the facial expressions. Our method allows one-shot, self, and cross-subject reenactment, without requiring subject-specific fine-tuning. We compare against state-of-the-art GAN-, StyleGAN2-, and diffusion-based methods, showing better or on-par reenactment performance.
- Abstract(参考訳): ビデオ駆動型ニューラルフェイス再現は、ターゲットの頭ポーズと表情を転送しながら、元の顔のアイデンティティと外観をうまく保持する現実的な顔画像を合成することを目的としている。
既存のGANベースの手法は、歪みや視覚的アーティファクト、あるいは粗悪な復元品質、すなわち、髪型/色、眼鏡、アクセサリーなどの背景といくつかの重要な外観の細部が忠実に再構築されていない。
拡散確率モデル(DPM)の最近の進歩は、高品質な現実画像の生成を可能にする。
そこで本稿では,拡散モデルのフォトリアリスティック画像生成を利用したニューラルフェース再現手法であるDiffusionActを提案する。
具体的には,拡散オートエンコーダ(DiffAE)のセマンティック空間を制御し,頭部ポーズの向きや表情として定義される入力画像の顔のポーズを編集する。
本手法では,単発,自己,クロスオブジェクトの再現が可能であり,被検体固有の微調整は不要である。
我々は,最先端のGAN-,StyleGAN2-,拡散に基づく手法と比較し,良好な再現性能を示した。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - AniFaceDiff: High-Fidelity Face Reenactment via Facial Parametric Conditioned Diffusion Models [33.39336530229545]
顔再現とは、ポーズと表情を、参照(運転)ビデオから静的な顔(ソース)画像に転送する過程を指す。
この領域における以前の研究は、顔を生成するために制御可能な深層生成モデルを訓練することで大きな進歩を遂げた。
本稿では,AniFaceDiffと呼ばれる安定拡散に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T07:08:48Z) - FSRT: Facial Scene Representation Transformer for Face Reenactment from Factorized Appearance, Head-pose, and Facial Expression Features [17.531847357428454]
顔再現の課題は、頭部の動きと表情を駆動ビデオからソース画像の外観に転送することである。
既存の手法の多くはCNNベースであり、ソース画像から現在の駆動フレームへの光の流れを推定する。
本稿では,ソースコードのセットラテント表現を演算するためのトランスフォーマーベースのエンコーダを提案する。
論文 参考訳(メタデータ) (2024-04-15T12:37:26Z) - DiffusionFace: Towards a Comprehensive Dataset for Diffusion-Based Face Forgery Analysis [71.40724659748787]
DiffusionFaceは、最初の拡散ベースのフェイスフォージェリーデータセットである。
非条件およびテキストガイドの顔画像生成、Img2Img、Inpaint、Diffusionベースの顔交換アルゴリズムなど、さまざまなフォージェリーカテゴリをカバーする。
重要なメタデータと、評価のための実世界のインターネットソースの偽顔画像データセットを提供する。
論文 参考訳(メタデータ) (2024-03-27T11:32:44Z) - FitDiff: Robust monocular 3D facial shape and reflectance estimation using Diffusion Models [79.65289816077629]
拡散型3次元顔アバター生成モデルFitDiffを提案する。
本モデルでは,「近距離」2次元顔画像から抽出したアイデンティティ埋め込みを利用して,再現性のある顔アバターを高精度に生成する。
FitDiffは、顔認識の埋め込みを前提とした最初の3D LDMであり、一般的なレンダリングエンジンで使用可能な、ライティング可能な人間のアバターを再構築する。
論文 参考訳(メタデータ) (2023-12-07T17:35:49Z) - HyperReenact: One-Shot Reenactment via Jointly Learning to Refine and
Retarget Faces [47.27033282706179]
提案手法は,音源識別のリアルな音声頭部画像を生成することを目的とした,HyperReenactと呼ばれるニューラルフェイス再現法を提案する。
提案手法は, 単発設定(すなわち, 単一音源フレーム)の下で動作し, 被検体固有の微調整を必要とせず, クロスオブジェクトの再現を可能にする。
我々は,VoxCeleb1とVoxCeleb2の標準ベンチマークにおけるいくつかの最先端技術と比較した。
論文 参考訳(メタデータ) (2023-07-20T11:59:42Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Head2Head++: Deep Facial Attributes Re-Targeting [6.230979482947681]
我々は,顔の3次元形状とGANを利用して,顔と頭部の再現作業のための新しいディープラーニングアーキテクチャを設計する。
駆動単眼動作から複雑な非剛性顔の動きを捉え,時間的に一貫した映像を合成する。
我々のシステムは、ほぼリアルタイムでエンドツーエンドの再現(18fps)を行う。
論文 参考訳(メタデータ) (2020-06-17T23:38:37Z) - Head2Head: Video-based Neural Head Synthesis [50.32988828989691]
顔再現のための新しい機械学習アーキテクチャを提案する。
提案手法は, 顔の表情, ポーズ, 視線を, 最先端の手法よりも正確に写実的な方法で対象映像に転送できることを示す。
論文 参考訳(メタデータ) (2020-05-22T00:44:43Z) - FaR-GAN for One-Shot Face Reenactment [20.894596219099164]
本稿では,任意の音源の顔画像とターゲット表現のみを入力として用いた一発顔再現モデルFaR-GANを提案する。
提案手法は,音源の同一性,表情,頭部ポーズ,さらには画像背景についても仮定しない。
論文 参考訳(メタデータ) (2020-05-13T16:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。