論文の概要: DisControlFace: Adding Disentangled Control to Diffusion Autoencoder for One-shot Explicit Facial Image Editing
- arxiv url: http://arxiv.org/abs/2312.06193v2
- Date: Wed, 24 Jul 2024 07:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 19:30:34.812241
- Title: DisControlFace: Adding Disentangled Control to Diffusion Autoencoder for One-shot Explicit Facial Image Editing
- Title(参考訳): DisControlFace: ワンショット顔画像編集のための拡散オートエンコーダにディスタングル制御を追加する
- Authors: Haozhe Jia, Yan Li, Hengfei Cui, Di Xu, Yuwang Wang, Tao Yu,
- Abstract要約: 我々は、生成的顔画像編集のきめ細かい制御の探索に焦点をあてる。
本稿では,DisControlFaceという,拡散に基づく新しい編集フレームワークを提案する。
我々のモデルは、3Dやビデオデータを必要とすることなく、2Dインザワイルドなポートレート画像を用いて訓練することができる。
- 参考スコア(独自算出の注目度): 14.537856326925178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we focus on exploring explicit fine-grained control of generative facial image editing, all while generating faithful facial appearances and consistent semantic details, which however, is quite challenging and has not been extensively explored, especially under an one-shot scenario. We identify the key challenge as the exploration of disentangled conditional control between high-level semantics and explicit parameters (e.g., 3DMM) in the generation process, and accordingly propose a novel diffusion-based editing framework, named DisControlFace. Specifically, we leverage a Diffusion Autoencoder (Diff-AE) as the semantic reconstruction backbone. To enable explicit face editing, we construct an Exp-FaceNet that is compatible with Diff-AE to generate spatial-wise explicit control conditions based on estimated 3DMM parameters. Different from current diffusion-based editing methods that train the whole conditional generative model from scratch, we freeze the pre-trained weights of the Diff-AE to maintain its semantically deterministic conditioning capability and accordingly propose a random semantic masking (RSM) strategy to effectively achieve an independent training of Exp-FaceNet. This setting endows the model with disentangled face control meanwhile reducing semantic information shift in editing. Our model can be trained using 2D in-the-wild portrait images without requiring 3D or video data and perform robust editing on any new facial image through a simple one-shot fine-tuning. Comprehensive experiments demonstrate that DisControlFace can generate realistic facial images with better editing accuracy and identity preservation over state-of-the-art methods. Project page: https://discontrolface.github.io/
- Abstract(参考訳): 本研究は, 顔の忠実な外観と一貫した意味的詳細を創出しながら, 生成的顔画像編集のきめ細かいきめ細かな制御を探索することに焦点を当てるが, 非常に困難であり, 特にワンショットシナリオ下では, 広くは研究されていない。
本稿では,高レベルなセマンティクスと明示的パラメータ(例えば3DMM)間の不整合条件制御の探索として重要な課題を特定し,それに基づいて,拡散に基づく新しい編集フレームワークであるDisControlFaceを提案する。
具体的には,Diffusion Autoencoder (Diff-AE) を意味再構成バックボーンとして活用する。
明示的な顔編集を可能にするために,Diff-AEと互換性のあるExp-FaceNetを構築し,推定した3DMMパラメータに基づいて空間的に明示的な制御条件を生成する。
条件生成モデル全体をスクラッチからトレーニングする現在の拡散ベースの編集方法とは異なり、Diff-AEの事前学習した重みを凍結して意味論的決定的条件付け能力を維持し、Exp-FaceNetの独立トレーニングを効果的に達成するためのランダムな意味マスキング(RSM)戦略を提案する。
この設定は、編集のセマンティック情報シフトを減らしながら、アンタングルされた顔制御によるモデルを実現する。
本モデルでは,3D画像や映像データを必要としない2Dインザミルポートレート画像を用いて,簡単なワンショット微調整により,新しい顔画像のロバストな編集を行うことができる。
総合的な実験により、DisControlFaceは、最先端の手法よりも編集精度とアイデンティティの保存性を向上し、現実的な顔画像を生成することができることが示された。
プロジェクトページ: https://discontrolface.github.io/
関連論文リスト
- DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models [79.0135981840682]
DICE(Discrete Inversion for Controllable Editing)を導入し,離散拡散モデルの正確なインバージョンを実現する。
逆拡散過程におけるノイズシーケンスとマスキングパターンを記録することにより、DICEは離散データの正確な再構成とフレキシブルな編集を可能にする。
以上の結果から,DICEは高いデータ忠実性を保ちながら編集能力を向上し,離散空間における微細なコンテンツ操作の新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-10T17:59:48Z) - Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control [24.569528214869113]
StyleGANモデルは、前もってリッチな顔を学習し、潜時操作による微粒化属性編集へのスムーズな制御を可能にする。
この作業では、StyleGANsの逆向きの$mathcalW+$スペースを使用して、T2Iモデルを条件付けする。
顔のパーソナライゼーションと微粒化属性編集の手法を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-24T07:10:25Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - Controllable Face Manipulation and UV Map Generation by Self-supervised
Learning [20.10160338724354]
近年の手法は2次元生成モデルと3DMMを組み合わせることで2次元画像の明示的な制御を実現する。
3DMMによるテクスチャ再構築における現実性と明瞭さの欠如により,合成画像と3DMMの描画画像との間には領域ギャップがある。
本研究では,3DMMのパラメータを制御して,事前学習したStyleGANの潜在空間を明示的に編集することを提案する。
論文 参考訳(メタデータ) (2022-09-24T16:49:25Z) - IA-FaceS: A Bidirectional Method for Semantic Face Editing [8.19063619210761]
本稿では,顔属性の非交叉操作とフレキシブルかつ制御可能なコンポーネント編集のための双方向手法を提案する。
IA-FaceSは、セグメンテーションマスクやスケッチのような入力視覚的なガイダンスなしで初めて開発された。
定量的および定性的な結果から,提案手法は再構成,顔属性操作,コンポーネント転送において,他の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-03-24T14:44:56Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - FaceController: Controllable Attribute Editing for Face in the Wild [74.56117807309576]
単純なフィードフォワードネットワークを提案し、高忠実度な顔を生成する。
本手法では,既存かつ容易に把握可能な事前情報を利用することで,野生の多様な顔属性の制御,転送,編集を行うことができる。
本手法では,3Dプリミティブを用いてアイデンティティ,表現,ポーズ,イルミネーションを分離し,地域別スタイルコードを用いてテクスチャとカラーを分離する。
論文 参考訳(メタデータ) (2021-02-23T02:47:28Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。