論文の概要: DiffFAE: Advancing High-fidelity One-shot Facial Appearance Editing with Space-sensitive Customization and Semantic Preservation
- arxiv url: http://arxiv.org/abs/2403.17664v1
- Date: Tue, 26 Mar 2024 12:53:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:27:36.582384
- Title: DiffFAE: Advancing High-fidelity One-shot Facial Appearance Editing with Space-sensitive Customization and Semantic Preservation
- Title(参考訳): DiffFAE: 空間感性カスタマイズとセマンティック保存による高忠実なワンショット顔顔画像編集の改善
- Authors: Qilin Wang, Jiangning Zhang, Chengming Xu, Weijian Cao, Ying Tai, Yue Han, Yanhao Ge, Hong Gu, Chengjie Wang, Yanwei Fu,
- Abstract要約: 本稿では,高忠実度顔画像編集に適した1段階かつ高効率な拡散ベースフレームワークDiffFAEを提案する。
高忠実度クエリ属性転送には、空間感性物理カスタマイズ(SPC)を採用し、忠実度と一般化能力を保証している。
ソース属性を保存するために、Regional-responsive Semantic Composition (RSC)を導入する。
このモジュールは、切り離されたソースを無視する特徴を学習するためにガイドされ、髪、服、背景などの非顔的属性からアーティファクトを保存し緩和する。
- 参考スコア(独自算出の注目度): 84.0586749616249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial Appearance Editing (FAE) aims to modify physical attributes, such as pose, expression and lighting, of human facial images while preserving attributes like identity and background, showing great importance in photograph. In spite of the great progress in this area, current researches generally meet three challenges: low generation fidelity, poor attribute preservation, and inefficient inference. To overcome above challenges, this paper presents DiffFAE, a one-stage and highly-efficient diffusion-based framework tailored for high-fidelity FAE. For high-fidelity query attributes transfer, we adopt Space-sensitive Physical Customization (SPC), which ensures the fidelity and generalization ability by utilizing rendering texture derived from 3D Morphable Model (3DMM). In order to preserve source attributes, we introduce the Region-responsive Semantic Composition (RSC). This module is guided to learn decoupled source-regarding features, thereby better preserving the identity and alleviating artifacts from non-facial attributes such as hair, clothes, and background. We further introduce a consistency regularization for our pipeline to enhance editing controllability by leveraging prior knowledge in the attention matrices of diffusion model. Extensive experiments demonstrate the superiority of DiffFAE over existing methods, achieving state-of-the-art performance in facial appearance editing.
- Abstract(参考訳): Facial Outearance Editing (FAE) は、人間の顔画像のポーズ、表情、照明などの物理的属性を修正しつつ、アイデンティティや背景などの属性を保存することを目的としており、写真において非常に重要である。
この分野での大きな進歩にもかかわらず、現在の研究は一般的に、低世代忠実性、属性保存の貧弱、非効率な推論という3つの課題に直面する。
以上の課題を克服するために,高忠実度FAEに適した1段階かつ高効率拡散ベースフレームワークであるDiffFAEを提案する。
高忠実度クエリ属性の転送には、空間感性物理カスタマイズ(SPC)を採用し、3次元Morphable Model(3DMM)由来のレンダリングテクスチャを活用することにより、忠実度と一般化性を確保する。
ソース属性を保存するため,地域対応セマンティック・コンポジション(RSC)を導入する。
このモジュールは、切り離されたソースを無視する特徴を学習するためにガイドされ、髪、服、背景などの非顔的属性からアーティファクトを保存し緩和する。
さらに、拡散モデルの注意行列における事前知識を活用することにより、編集制御性を高めるためのパイプラインの整合正則化も導入する。
DiffFAEは既存の方法よりも優れており、顔の外観編集における最先端性能を実現している。
関連論文リスト
- ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition [60.15830516741776]
合成顔認識(SFR)は、実際の顔データの分布を模倣するデータセットを生成することを目的としている。
拡散燃料SFRモデルであるtextID3$を紹介します。
textID3$はID保存損失を利用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
論文 参考訳(メタデータ) (2024-09-26T06:46:40Z) - A Reference-Based 3D Semantic-Aware Framework for Accurate Local Facial Attribute Editing [19.21301510545666]
本稿では,遅延ベースの編集手法と参照ベースの編集手法を融合した新しいフレームワークを提案する。
提案手法では、3次元GANインバージョン技術を用いて、参照画像からの属性を3次元平面空間に埋め込む。
粗く微細な塗布戦略を適用して、未ターゲット領域の整合性を維持する。
論文 参考訳(メタデータ) (2024-07-25T20:55:23Z) - Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。
我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。
提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T01:34:00Z) - FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping [62.38898610210771]
そこで我々は,FaceDancerという顔のスワップとID転送のための新しい単一ステージ手法を提案する。
アダプティブ・フィーチャー・フュージョン・アテンション(AFFA)と解釈的特徴類似性規則化(IFSR)の2つの主要なコントリビューションがある。
論文 参考訳(メタデータ) (2022-10-19T11:31:38Z) - Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation [66.21121745446345]
本稿では,特定の属性ラベルを入力として統合した条件付きGNeRFモデルを提案する。
提案手法は, 事前学習した3次元顔モデルに基づいており, 条件付き正規化フローモジュールをトレーニングするためのTraining as Init and fidelity for Tuning (TRIOT) 方式を提案する。
本実験は,ビューの整合性を高めた高品質な編集を行う能力を示すとともに,本モデルの有効性を実証するものである。
論文 参考訳(メタデータ) (2022-08-26T10:05:39Z) - Deep Collaborative Multi-Modal Learning for Unsupervised Kinship
Estimation [53.62256887837659]
キンシップ検証は、コンピュータビジョンにおける長年の研究課題である。
本稿では,顔特性に表される基礎情報を統合するために,新しい協調型多モーダル学習(DCML)を提案する。
我々のDCML法は、常に最先端のキンシップ検証法よりも優れている。
論文 参考訳(メタデータ) (2021-09-07T01:34:51Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。