論文の概要: StyleMask: Disentangling the Style Space of StyleGAN2 for Neural Face
Reenactment
- arxiv url: http://arxiv.org/abs/2209.13375v1
- Date: Tue, 27 Sep 2022 13:22:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:41:40.237696
- Title: StyleMask: Disentangling the Style Space of StyleGAN2 for Neural Face
Reenactment
- Title(参考訳): StyleMask: ニューラルフェイス再現のためのスタイルGAN2のスタイルスペースを解消
- Authors: Stella Bounareli, Christos Tzelepis, Vasileios Argyriou, Ioannis
Patras, Georgios Tzimiropoulos
- Abstract要約: 本研究では,顔の特徴をそのポーズから切り離すフレームワークを提案する。
提案手法は, 極端なポーズ変動であっても, 高品質な結果が得られることを示す。
- 参考スコア(独自算出の注目度): 47.27033282706179
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper we address the problem of neural face reenactment, where, given
a pair of a source and a target facial image, we need to transfer the target's
pose (defined as the head pose and its facial expressions) to the source image,
by preserving at the same time the source's identity characteristics (e.g.,
facial shape, hair style, etc), even in the challenging case where the source
and the target faces belong to different identities. In doing so, we address
some of the limitations of the state-of-the-art works, namely, a) that they
depend on paired training data (i.e., source and target faces have the same
identity), b) that they rely on labeled data during inference, and c) that they
do not preserve identity in large head pose changes. More specifically, we
propose a framework that, using unpaired randomly generated facial images,
learns to disentangle the identity characteristics of the face from its pose by
incorporating the recently introduced style space $\mathcal{S}$ of StyleGAN2, a
latent representation space that exhibits remarkable disentanglement
properties. By capitalizing on this, we learn to successfully mix a pair of
source and target style codes using supervision from a 3D model. The resulting
latent code, that is subsequently used for reenactment, consists of latent
units corresponding to the facial pose of the target only and of units
corresponding to the identity of the source only, leading to notable
improvement in the reenactment performance compared to recent state-of-the-art
methods. In comparison to state of the art, we quantitatively and qualitatively
show that the proposed method produces higher quality results even on extreme
pose variations. Finally, we report results on real images by first embedding
them on the latent space of the pretrained generator. We make the code and
pretrained models publicly available at: https://github.com/StelaBou/StyleMask
- Abstract(参考訳): 本稿では,1対のソースと対象の顔画像が与えられた場合であっても,ソースのアイデンティティ特性(顔形,髪型など)を異なるアイデンティティに属する場合であっても保存して,ターゲットのポーズ(頭部のポーズとその表情と定義)をソース画像に転送する必要があるニューラルフェイス再現の問題に対処する。
その際、最先端作品の限界、すなわち、いくつかの制限に対処します。
a) ペアトレーニングデータ(すなわち、ソース面とターゲット面が同一の同一性を持つもの)に依存すること。
b) 推論中にラベル付きデータに依存すること,及び
c) 頭部が大きく変化しても同一性が保持されないこと。
より具体的には、ランダムに生成した顔画像を用いて、最近導入されたスタイル空間であるStyleGAN2の$\mathcal{S}$を組み込むことで、顔のアイデンティティ特性をそのポーズから切り離すことができるフレームワークを提案する。
これを利用して、3Dモデルからの監督を利用して、ソースとターゲットの2つのスタイルのコードをうまく組み合わせることを学ぶ。
結果として得られた潜在コードは、後に再現に使用されるが、対象者の顔のポーズに対応する潜在単位と、ソースのアイデンティティのみに対応する単位で構成されており、最近の最先端の方法と比較して再現性能が著しく向上している。
現状と比較して,提案手法が極端なポーズ変動においても高品質な結果をもたらすことを定量的・定性的に示す。
最後に,事前学習した生成器の潜在空間に埋め込み,実画像の結果を報告する。
コードとトレーニング済みモデルの公開は、https://github.com/stelabou/stylemask.com/。
関連論文リスト
- StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - HyperReenact: One-Shot Reenactment via Jointly Learning to Refine and
Retarget Faces [47.27033282706179]
提案手法は,音源識別のリアルな音声頭部画像を生成することを目的とした,HyperReenactと呼ばれるニューラルフェイス再現法を提案する。
提案手法は, 単発設定(すなわち, 単一音源フレーム)の下で動作し, 被検体固有の微調整を必要とせず, クロスオブジェクトの再現を可能にする。
我々は,VoxCeleb1とVoxCeleb2の標準ベンチマークにおけるいくつかの最先端技術と比較した。
論文 参考訳(メタデータ) (2023-07-20T11:59:42Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z) - Pose with Style: Detail-Preserving Pose-Guided Image Synthesis with
Conditional StyleGAN [88.62422914645066]
任意のポーズで1つの画像から人物を再レンダリングするアルゴリズムを提案する。
既存の方法では、画像の同一性や細部を保ちながら、隠蔽されたコンテンツを写実的に幻覚することはしばしば困難である。
本手法は, 定量的評価と視覚的比較の両方において, 最先端のアルゴリズムと良好に比較できることを示す。
論文 参考訳(メタデータ) (2021-09-13T17:59:33Z) - FaR-GAN for One-Shot Face Reenactment [20.894596219099164]
本稿では,任意の音源の顔画像とターゲット表現のみを入力として用いた一発顔再現モデルFaR-GANを提案する。
提案手法は,音源の同一性,表情,頭部ポーズ,さらには画像背景についても仮定しない。
論文 参考訳(メタデータ) (2020-05-13T16:15:37Z) - One-Shot Identity-Preserving Portrait Reenactment [16.889479797252783]
本研究では,対象物(ワンショット)の1枚の画像と運転対象物の映像から,人物像を再現するための深層学習型フレームワークを提案する。
本研究の目的は,一枚の画像から人物の身元を復元するクロスオブジェクト・ポートレート・リダクティフィケーションにおけるアイデンティティの保存に対処することである。
論文 参考訳(メタデータ) (2020-04-26T18:30:33Z) - ActGAN: Flexible and Efficient One-shot Face Reenactment [1.8431600219151503]
ActGANは、ワンショット顔再現のための新しいエンド・ツー・エンドな生成的敵ネットワーク(GAN)である。
我々は、ソースとターゲットの両方に任意の人が追加のトレーニングを受けることなく、"many-to-Many"アプローチを導入します。
また、深層顔認識領域における最先端のアプローチを採用することにより、合成された人物と対象人物の同一性を維持するためのソリューションも導入する。
論文 参考訳(メタデータ) (2020-03-30T22:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。