論文の概要: DisControlFace: Disentangled Control for Personalized Facial Image
Editing
- arxiv url: http://arxiv.org/abs/2312.06193v1
- Date: Mon, 11 Dec 2023 08:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:30:12.339777
- Title: DisControlFace: Disentangled Control for Personalized Facial Image
Editing
- Title(参考訳): DisControlFace:パーソナライズされた顔画像編集のためのアンタングル制御
- Authors: Haozhe Jia, Yan Li, Hengfei Cui, Di Xu, Changpeng Yang, Yuwang Wang,
Tao Yu
- Abstract要約: 生成的顔画像編集のきめ細かな制御に着目し、忠実で一貫したパーソナライズされた顔の外観を創出する。
2つの分離されたコンポーネントからなる新しい拡散型フレームワークであるDisControlFaceを提案する。
我々のDisControlNetは、大規模な2Dインザワイルドポートレートのトレーニングを通じて、どんな顔画像でも堅牢な編集を行うことができる。
- 参考スコア(独自算出の注目度): 15.353081246276986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we focus on exploring explicit fine-grained control of
generative facial image editing, all while generating faithful and consistent
personalized facial appearances. We identify the key challenge of this task as
the exploration of disentangled conditional control in the generation process,
and accordingly propose a novel diffusion-based framework, named
DisControlFace, comprising two decoupled components. Specifically, we leverage
an off-the-shelf diffusion reconstruction model as the backbone and freeze its
pre-trained weights, which helps to reduce identity shift and recover
editing-unrelated details of the input image. Furthermore, we construct a
parallel control network that is compatible with the reconstruction backbone to
generate spatial control conditions based on estimated explicit face
parameters. Finally, we further reformulate the training pipeline into a
masked-autoencoding form to effectively achieve disentangled training of our
DisControlFace. Our DisControlNet can perform robust editing on any facial
image through training on large-scale 2D in-the-wild portraits and also
supports low-cost fine-tuning with few additional images to further learn
diverse personalized priors of a specific person. Extensive experiments
demonstrate that DisControlFace can generate realistic facial images
corresponding to various face control conditions, while significantly improving
the preservation of the personalized facial details.
- Abstract(参考訳): 本研究は, 顔画像編集のきめ細かな制御に焦点をあて, 忠実で一貫したパーソナライズされた顔の外観を創出することに焦点を当てる。
本稿では,この課題を生成過程における不整合条件制御の探索として認識し,2つの分離成分からなる拡散型フレームワークであるDisControlFaceを提案する。
具体的には,既成の拡散再構成モデルをバックボーンとして活用し,事前学習した重みを凍結することで,同一性シフトを低減し,入力画像の編集非関連詳細を復元する。
さらに,推定顔パラメータに基づいて空間制御条件を生成するために,再構成バックボーンと互換性のある並列制御ネットワークを構築した。
最後に,トレーニングパイプラインをマスク型自動コーディング形式に再編成し,制御不能のトレーニングを効果的に達成する。
我々のDisControlNetは、大規模な2Dインザワイルドポートレートのトレーニングを通じて、どんな顔画像でも堅牢な編集を行えます。
広範囲な実験により、discontrolfaceは様々な顔制御条件に対応する現実的な顔画像を生成することができ、またパーソナライズされた顔詳細の保存を著しく改善できることが示されている。
関連論文リスト
- DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models [79.0135981840682]
DICE(Discrete Inversion for Controllable Editing)を導入し,離散拡散モデルの正確なインバージョンを実現する。
逆拡散過程におけるノイズシーケンスとマスキングパターンを記録することにより、DICEは離散データの正確な再構成とフレキシブルな編集を可能にする。
以上の結果から,DICEは高いデータ忠実性を保ちながら編集能力を向上し,離散空間における微細なコンテンツ操作の新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-10T17:59:48Z) - Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control [24.569528214869113]
StyleGANモデルは、前もってリッチな顔を学習し、潜時操作による微粒化属性編集へのスムーズな制御を可能にする。
この作業では、StyleGANsの逆向きの$mathcalW+$スペースを使用して、T2Iモデルを条件付けする。
顔のパーソナライゼーションと微粒化属性編集の手法を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-24T07:10:25Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - Controllable Face Manipulation and UV Map Generation by Self-supervised
Learning [20.10160338724354]
近年の手法は2次元生成モデルと3DMMを組み合わせることで2次元画像の明示的な制御を実現する。
3DMMによるテクスチャ再構築における現実性と明瞭さの欠如により,合成画像と3DMMの描画画像との間には領域ギャップがある。
本研究では,3DMMのパラメータを制御して,事前学習したStyleGANの潜在空間を明示的に編集することを提案する。
論文 参考訳(メタデータ) (2022-09-24T16:49:25Z) - IA-FaceS: A Bidirectional Method for Semantic Face Editing [8.19063619210761]
本稿では,顔属性の非交叉操作とフレキシブルかつ制御可能なコンポーネント編集のための双方向手法を提案する。
IA-FaceSは、セグメンテーションマスクやスケッチのような入力視覚的なガイダンスなしで初めて開発された。
定量的および定性的な結果から,提案手法は再構成,顔属性操作,コンポーネント転送において,他の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-03-24T14:44:56Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - FaceController: Controllable Attribute Editing for Face in the Wild [74.56117807309576]
単純なフィードフォワードネットワークを提案し、高忠実度な顔を生成する。
本手法では,既存かつ容易に把握可能な事前情報を利用することで,野生の多様な顔属性の制御,転送,編集を行うことができる。
本手法では,3Dプリミティブを用いてアイデンティティ,表現,ポーズ,イルミネーションを分離し,地域別スタイルコードを用いてテクスチャとカラーを分離する。
論文 参考訳(メタデータ) (2021-02-23T02:47:28Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。