論文の概要: HyperReenact: One-Shot Reenactment via Jointly Learning to Refine and
Retarget Faces
- arxiv url: http://arxiv.org/abs/2307.10797v1
- Date: Thu, 20 Jul 2023 11:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:20:48.391004
- Title: HyperReenact: One-Shot Reenactment via Jointly Learning to Refine and
Retarget Faces
- Title(参考訳): hyperreenact: 共同学習によるワンショット再現による顔の洗練とターゲティング
- Authors: Stella Bounareli, Christos Tzelepis, Vasileios Argyriou, Ioannis
Patras, Georgios Tzimiropoulos
- Abstract要約: 提案手法は,音源識別のリアルな音声頭部画像を生成することを目的とした,HyperReenactと呼ばれるニューラルフェイス再現法を提案する。
提案手法は, 単発設定(すなわち, 単一音源フレーム)の下で動作し, 被検体固有の微調整を必要とせず, クロスオブジェクトの再現を可能にする。
我々は,VoxCeleb1とVoxCeleb2の標準ベンチマークにおけるいくつかの最先端技術と比較した。
- 参考スコア(独自算出の注目度): 47.27033282706179
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present our method for neural face reenactment, called
HyperReenact, that aims to generate realistic talking head images of a source
identity, driven by a target facial pose. Existing state-of-the-art face
reenactment methods train controllable generative models that learn to
synthesize realistic facial images, yet producing reenacted faces that are
prone to significant visual artifacts, especially under the challenging
condition of extreme head pose changes, or requiring expensive few-shot
fine-tuning to better preserve the source identity characteristics. We propose
to address these limitations by leveraging the photorealistic generation
ability and the disentangled properties of a pretrained StyleGAN2 generator, by
first inverting the real images into its latent space and then using a
hypernetwork to perform: (i) refinement of the source identity characteristics
and (ii) facial pose re-targeting, eliminating this way the dependence on
external editing methods that typically produce artifacts. Our method operates
under the one-shot setting (i.e., using a single source frame) and allows for
cross-subject reenactment, without requiring any subject-specific fine-tuning.
We compare our method both quantitatively and qualitatively against several
state-of-the-art techniques on the standard benchmarks of VoxCeleb1 and
VoxCeleb2, demonstrating the superiority of our approach in producing
artifact-free images, exhibiting remarkable robustness even under extreme head
pose changes. We make the code and the pretrained models publicly available at:
https://github.com/StelaBou/HyperReenact .
- Abstract(参考訳): 本稿では,ターゲットの顔のポーズによって駆動される音源の頭部画像のリアルな生成を目的とした,HyperReenactと呼ばれるニューラルフェイス再現法を提案する。
既存の最先端の顔再現法では、現実的な顔画像の合成を学ぶための制御可能な生成モデルを訓練するが、重要な視覚的アーティファクト、特に極端な頭部ポーズの変化の困難な条件下では、再現された顔を生成する。
本稿では,まず実像をその潜在空間に逆転させ,次にハイパーネットワークを用いて実行することで,予め訓練したStyleGAN2ジェネレータの光リアリスティック生成能力と歪み特性を活用することで,これらの制約に対処することを提案する。
(i)原産地特性の精細化及び
(二)顔のポーズを再ターゲットし、通常人工物を生成する外部編集方法への依存をなくす。
本手法は,単発設定(すなわち単一ソースフレームを使用する)で動作し,被写体固有の微調整を必要とせず,クロスサブジェクトの再現を可能にする。
本手法は,voxceleb1およびvoxceleb2の標準ベンチマークにおいて,定量的かつ定性的に,いくつかの最先端技術と比較し,極端な頭部姿勢変化においても顕著なロバスト性を示すアーティファクトフリー画像生成におけるアプローチの優位性を示す。
コードと事前訓練済みのモデルは、https://github.com/StelaBou/HyperReenact で公開しています。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - AniFaceDiff: High-Fidelity Face Reenactment via Facial Parametric Conditioned Diffusion Models [33.39336530229545]
顔再現とは、ポーズと表情を、参照(運転)ビデオから静的な顔(ソース)画像に転送する過程を指す。
この領域における以前の研究は、顔を生成するために制御可能な深層生成モデルを訓練することで大きな進歩を遂げた。
本稿では,AniFaceDiffと呼ばれる安定拡散に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T07:08:48Z) - DiffusionAct: Controllable Diffusion Autoencoder for One-shot Face Reenactment [34.821255203019554]
ビデオ駆動型ニューラルフェイスの再現は、元の顔のアイデンティティと外観をうまく保存する現実的な顔画像を合成することを目的としている。
拡散確率モデル(DPM)の最近の進歩は、高品質な現実画像の生成を可能にする。
本稿では,拡散モデルのフォトリアリスティック画像生成を利用して,ニューラルフェイスの再現を行う新しい手法であるDiffusionを提案する。
論文 参考訳(メタデータ) (2024-03-25T21:46:53Z) - Effective Adapter for Face Recognition in the Wild [72.75516495170199]
私たちは、画像が低品質で現実世界の歪みに悩まされる、野生の顔認識の課題に取り組みます。
従来のアプローチでは、劣化した画像や、顔の復元技術を使って強化された画像を直接訓練するが、効果がないことが証明された。
高品質な顔データセットで訓練された既存の顔認識モデルを強化するための効果的なアダプタを提案する。
論文 参考訳(メタデータ) (2023-12-04T08:55:46Z) - Semantic-aware One-shot Face Re-enactment with Dense Correspondence
Estimation [100.60938767993088]
ワンショットの顔の再現は、ソースと駆動する顔の同一性ミスマッチのため、難しい作業である。
本稿では,3次元形態素モデル(3DMM)を明示的な顔のセマンティックな分解とアイデンティティの絡み合いに利用することを提案する。
論文 参考訳(メタデータ) (2022-11-23T03:02:34Z) - StyleMask: Disentangling the Style Space of StyleGAN2 for Neural Face
Reenactment [47.27033282706179]
本研究では,顔の特徴をそのポーズから切り離すフレームワークを提案する。
提案手法は, 極端なポーズ変動であっても, 高品質な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-27T13:22:35Z) - Thinking the Fusion Strategy of Multi-reference Face Reenactment [4.1509697008011175]
複数の参照画像を用いた単純な拡張は生成品質を著しく向上させることを示す。
本研究は,1)公開データセットの再構成作業,2)複数人の頭部運動映像シーケンスからなる元のデータセットの顔の動き伝達,3)新たに提案した評価指標を用いて,提案手法がより定量的な結果が得られることを検証した。
論文 参考訳(メタデータ) (2022-02-22T09:17:26Z) - Finding Directions in GAN's Latent Space for Neural Face Reenactment [45.67273942952348]
本論文は顔/頭部の再現において,対象顔の顔ポーズ(3D頭部の向きと表情)を元顔に転送することが目的である。
我々は、訓練済みの(微調整済みの)GANを使用することで、そのようなネットワークのトレーニングを回避し、異なるアプローチをとる。
GAN潜伏空間に実画像を埋め込むことで,実世界の顔の再現に有効であることを示す。
論文 参考訳(メタデータ) (2022-01-31T19:14:03Z) - Head2Head: Video-based Neural Head Synthesis [50.32988828989691]
顔再現のための新しい機械学習アーキテクチャを提案する。
提案手法は, 顔の表情, ポーズ, 視線を, 最先端の手法よりも正確に写実的な方法で対象映像に転送できることを示す。
論文 参考訳(メタデータ) (2020-05-22T00:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。