論文の概要: High-resolution Face Swapping via Latent Semantics Disentanglement
- arxiv url: http://arxiv.org/abs/2203.15958v1
- Date: Wed, 30 Mar 2022 00:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 13:53:09.849240
- Title: High-resolution Face Swapping via Latent Semantics Disentanglement
- Title(参考訳): 潜在セマンティクスによる高分解能顔スワップ
- Authors: Yangyang Xu and Bailin Deng and Junle Wang and Yanqing Jing and Jia
Pan and Shengfeng He
- Abstract要約: 本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。
我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。
我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
- 参考スコア(独自算出の注目度): 50.23624681222619
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a novel high-resolution face swapping method using the inherent
prior knowledge of a pre-trained GAN model. Although previous research can
leverage generative priors to produce high-resolution results, their quality
can suffer from the entangled semantics of the latent space. We explicitly
disentangle the latent semantics by utilizing the progressive nature of the
generator, deriving structure attributes from the shallow layers and appearance
attributes from the deeper ones. Identity and pose information within the
structure attributes are further separated by introducing a landmark-driven
structure transfer latent direction. The disentangled latent code produces rich
generative features that incorporate feature blending to produce a plausible
swapping result. We further extend our method to video face swapping by
enforcing two spatio-temporal constraints on the latent space and the image
space. Extensive experiments demonstrate that the proposed method outperforms
state-of-the-art image/video face swapping methods in terms of hallucination
quality and consistency. Code can be found at:
https://github.com/cnnlstm/FSLSD_HiRes.
- Abstract(参考訳): 本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能顔交換法を提案する。
従来の研究では、生成前処理を利用して高解像度な結果を生成することができたが、その品質は潜在空間の絡み合った意味論に苦しむ可能性がある。
我々は,ジェネレータの進行的性質を利用し,浅い層から構造属性を導出し,より深い層から外観属性を導出することにより,潜在意味論を明示的に分離する。
ランドマーク駆動構造転送潜在方向を導入することにより、構造属性内のアイデンティティとポーズ情報はさらに分離される。
疎結合な潜在コードは、機能ブレンドを組み込んだ豊富な生成的特徴を生み出し、妥当な交換結果を生成する。
さらに, 潜在空間と画像空間に2つの時空間制約を課すことで, 映像面スワッピングに本手法を拡張した。
広汎な実験により,提案手法は幻覚の質と一貫性の観点から,最先端の画像/ビデオの顔交換法より優れていた。
コードは、https://github.com/cnnlstm/FSLSD_HiResで参照できる。
関連論文リスト
- Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - ExtSwap: Leveraging Extended Latent Mapper for Generating High Quality
Face Swapping [11.626508630081362]
事前学習したStyleGANの段階的に成長する構造を用いた顔交換方式を提案する。
我々は、アイデンティティと属性の特徴を別々に導き、意味論を解体する。
論文 参考訳(メタデータ) (2023-10-19T13:33:55Z) - Hierarchical Diffusion Autoencoders and Disentangled Image Manipulation [36.20575570779196]
拡散モデルの潜在空間に対して,細粒度から細粒度まで,低レベルから高レベルの特徴階層を利用する。
HDAEの階層的潜在空間は本質的に異なる抽象的な意味論のレベルを符号化し、より包括的な意味表現を提供する。
提案手法の有効性を実験的に検証し,画像再構成,スタイル混合,制御可能,ディテール保存,不整合な画像操作に応用した。
論文 参考訳(メタデータ) (2023-04-24T05:35:59Z) - StyleSwap: Style-Based Generator Empowers Robust Face Swapping [90.05775519962303]
StyleSwapという簡潔で効果的なフレームワークを紹介します。
私たちの中核となる考え方は、スタイルベースのジェネレータを活用して、高忠実で堅牢な顔交換を可能にすることです。
最小限の変更だけで、StyleGAN2アーキテクチャはソースとターゲットの両方から望まれる情報をうまく処理できる。
論文 参考訳(メタデータ) (2022-09-27T16:35:16Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Latent Transformations via NeuralODEs for GAN-based Image Editing [25.272389610447856]
トレーニング可能なNeural ODEのフローとして実現された非線形潜時符号操作は、多くの実用的な非顔画像領域にとって有益であることを示す。
特に、既知の属性を持つ多数のデータセットを調査し、ある属性操作が線形シフトのみで取得することが困難であることを実証する。
論文 参考訳(メタデータ) (2021-11-29T18:59:54Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。