論文の概要: High-resolution Face Swapping via Latent Semantics Disentanglement
- arxiv url: http://arxiv.org/abs/2203.15958v1
- Date: Wed, 30 Mar 2022 00:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 13:53:09.849240
- Title: High-resolution Face Swapping via Latent Semantics Disentanglement
- Title(参考訳): 潜在セマンティクスによる高分解能顔スワップ
- Authors: Yangyang Xu and Bailin Deng and Junle Wang and Yanqing Jing and Jia
Pan and Shengfeng He
- Abstract要約: 本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。
我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。
我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
- 参考スコア(独自算出の注目度): 50.23624681222619
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a novel high-resolution face swapping method using the inherent
prior knowledge of a pre-trained GAN model. Although previous research can
leverage generative priors to produce high-resolution results, their quality
can suffer from the entangled semantics of the latent space. We explicitly
disentangle the latent semantics by utilizing the progressive nature of the
generator, deriving structure attributes from the shallow layers and appearance
attributes from the deeper ones. Identity and pose information within the
structure attributes are further separated by introducing a landmark-driven
structure transfer latent direction. The disentangled latent code produces rich
generative features that incorporate feature blending to produce a plausible
swapping result. We further extend our method to video face swapping by
enforcing two spatio-temporal constraints on the latent space and the image
space. Extensive experiments demonstrate that the proposed method outperforms
state-of-the-art image/video face swapping methods in terms of hallucination
quality and consistency. Code can be found at:
https://github.com/cnnlstm/FSLSD_HiRes.
- Abstract(参考訳): 本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能顔交換法を提案する。
従来の研究では、生成前処理を利用して高解像度な結果を生成することができたが、その品質は潜在空間の絡み合った意味論に苦しむ可能性がある。
我々は,ジェネレータの進行的性質を利用し,浅い層から構造属性を導出し,より深い層から外観属性を導出することにより,潜在意味論を明示的に分離する。
ランドマーク駆動構造転送潜在方向を導入することにより、構造属性内のアイデンティティとポーズ情報はさらに分離される。
疎結合な潜在コードは、機能ブレンドを組み込んだ豊富な生成的特徴を生み出し、妥当な交換結果を生成する。
さらに, 潜在空間と画像空間に2つの時空間制約を課すことで, 映像面スワッピングに本手法を拡張した。
広汎な実験により,提案手法は幻覚の質と一貫性の観点から,最先端の画像/ビデオの顔交換法より優れていた。
コードは、https://github.com/cnnlstm/FSLSD_HiResで参照できる。
関連論文リスト
- Nested Diffusion Models Using Hierarchical Latent Priors [23.605302440082994]
ネスト拡散モデル(ネスト拡散モデル)は、効率的で強力な階層的生成フレームワークである。
提案手法では,様々な意味レベルで潜伏変数を段階的に生成するために,一連の拡散モデルを用いる。
これらの潜伏変数を構築するために,事前学習した視覚エンコーダを用いて,強い意味的視覚表現を学習する。
論文 参考訳(メタデータ) (2024-12-08T16:13:39Z) - HiFiVFS: High Fidelity Video Face Swapping [35.49571526968986]
Face swappingは、ソースからのIDとターゲットからの属性を組み合わせた結果を生成することを目的としている。
安定ビデオ拡散の強い生成能力と時間的先行を生かした高忠実度ビデオ顔交換フレームワークを提案する。
本手法は,映像面スワップにおける最新技術(SOTA)を質的かつ定量的に達成する。
論文 参考訳(メタデータ) (2024-11-27T12:30:24Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - ExtSwap: Leveraging Extended Latent Mapper for Generating High Quality
Face Swapping [11.626508630081362]
事前学習したStyleGANの段階的に成長する構造を用いた顔交換方式を提案する。
我々は、アイデンティティと属性の特徴を別々に導き、意味論を解体する。
論文 参考訳(メタデータ) (2023-10-19T13:33:55Z) - StyleSwap: Style-Based Generator Empowers Robust Face Swapping [90.05775519962303]
StyleSwapという簡潔で効果的なフレームワークを紹介します。
私たちの中核となる考え方は、スタイルベースのジェネレータを活用して、高忠実で堅牢な顔交換を可能にすることです。
最小限の変更だけで、StyleGAN2アーキテクチャはソースとターゲットの両方から望まれる情報をうまく処理できる。
論文 参考訳(メタデータ) (2022-09-27T16:35:16Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。