論文の概要: MuseFace: Text-driven Face Editing via Diffusion-based Mask Generation Approach
- arxiv url: http://arxiv.org/abs/2503.23888v1
- Date: Mon, 31 Mar 2025 09:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:24.451157
- Title: MuseFace: Text-driven Face Editing via Diffusion-based Mask Generation Approach
- Title(参考訳): MuseFace: 拡散型マスク生成アプローチによるテキスト駆動型顔編集
- Authors: Xin Zhang, Siting Huang, Xiangyang Luo, Yifan Xie, Weijiang Yu, Heng Chang, Fei Ma, Fei Yu,
- Abstract要約: MuseFaceはテキスト駆動の顔編集フレームワークで、顔編集を可能にするためにテキストプロンプトのみに依存する。
我々のフレームワークは、きめ細かいセマンティックマスクを作成でき、正確な顔編集を可能にします。
- 参考スコア(独自算出の注目度): 21.480506258798
- License:
- Abstract: Face editing modifies the appearance of face, which plays a key role in customization and enhancement of personal images. Although much work have achieved remarkable success in text-driven face editing, they still face significant challenges as none of them simultaneously fulfill the characteristics of diversity, controllability and flexibility. To address this challenge, we propose MuseFace, a text-driven face editing framework, which relies solely on text prompt to enable face editing. Specifically, MuseFace integrates a Text-to-Mask diffusion model and a semantic-aware face editing model, capable of directly generating fine-grained semantic masks from text and performing face editing. The Text-to-Mask diffusion model provides \textit{diversity} and \textit{flexibility} to the framework, while the semantic-aware face editing model ensures \textit{controllability} of the framework. Our framework can create fine-grained semantic masks, making precise face editing possible, and significantly enhancing the controllability and flexibility of face editing models. Extensive experiments demonstrate that MuseFace achieves superior high-fidelity performance.
- Abstract(参考訳): 顔編集は顔の外観を改良し、パーソナルイメージのカスタマイズと強化に重要な役割を果たしている。
多くの作業はテキスト駆動の顔編集において顕著な成功を収めてきたが、多様性、制御可能性、柔軟性といった特徴を同時に満たさないため、大きな課題に直面している。
この課題に対処するために,テキストプロンプトにのみ依存して顔編集を可能にするテキスト駆動の顔編集フレームワークであるMuseFaceを提案する。
具体的には、テキストからきめ細かなセマンティックマスクを直接生成し、顔編集を行うことができる、テキストからマスクへの拡散モデルとセマンティック・アウェア・フェイス編集モデルを統合する。
Text-to-Mask拡散モデルはフレームワークに \textit{diversity} と \textit{flexibility} を提供する。
我々のフレームワークは、きめ細かいセマンティックマスクを作成し、正確な顔編集を可能にし、顔編集モデルの制御性と柔軟性を大幅に向上させることができる。
大規模な実験により、MuseFaceは優れた高忠実度性能を達成することが示された。
関連論文リスト
- Towards Consistent and Controllable Image Synthesis for Face Editing [18.646961062736207]
RigFaceは、ポートレート写真のライティング、表情、ヘッドポーズを制御する新しいアプローチである。
我々のモデルは、既存の顔編集モデルと比較して、アイデンティティ保存とフォトリアリズムの両方において同等またはそれ以上の性能を達成している。
論文 参考訳(メタデータ) (2025-02-04T16:36:07Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - A Generalist FaceX via Learning Unified Facial Representation [77.74407008931486]
FaceXは、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルである。
汎用的なFaceXは、一般的な顔編集タスクの精巧なタスク特化モデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-12-31T17:41:48Z) - MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing [61.014328598895524]
textbfMaTe3D:マスク誘導型テキストベースの3D画像編集を提案する。
SDFに基づく新しい3Dジェネレータは,SDFと密度の整合性損失により局所的およびグローバルな表現を学習する。
幾何とテクスチャの条件蒸留(CDGT)は視覚的曖昧さを軽減し、テクスチャと幾何学のミスマッチを避ける。
論文 参考訳(メタデータ) (2023-12-12T03:04:08Z) - DisControlFace: Adding Disentangled Control to Diffusion Autoencoder for One-shot Explicit Facial Image Editing [14.537856326925178]
我々は、生成的顔画像編集のきめ細かい制御の探索に焦点をあてる。
本稿では,DisControlFaceという,拡散に基づく新しい編集フレームワークを提案する。
我々のモデルは、3Dやビデオデータを必要とすることなく、2Dインザワイルドなポートレート画像を用いて訓練することができる。
論文 参考訳(メタデータ) (2023-12-11T08:16:55Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - Fine-Grained Face Swapping via Regional GAN Inversion [18.537407253864508]
所望の微妙な幾何やテクスチャの詳細を忠実に保存する,高忠実な顔交換のための新しいパラダイムを提案する。
顔成分の形状とテクスチャの明示的な乱れに基づく枠組みを提案する。
我々のシステムの中核には、形状とテクスチャの明示的な切り離しを可能にする、新しいRegional GAN Inversion (RGI) 手法がある。
論文 参考訳(メタデータ) (2022-11-25T12:40:45Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - ManiCLIP: Multi-Attribute Face Manipulation from Text [104.30600573306991]
テキスト記述に基づく新しい多属性顔操作法を提案する。
本手法は,テキスト関連属性の編集を最小限に抑えた自然な顔を生成する。
論文 参考訳(メタデータ) (2022-10-02T07:22:55Z) - S2FGAN: Semantically Aware Interactive Sketch-to-Face Translation [11.724779328025589]
本稿では,S2FGANと呼ばれるスケッチ・ツー・イメージ生成フレームワークを提案する。
我々は2つの潜在空間を用いて顔の外観を制御し、生成した顔の所望の属性を調整する。
提案手法は,属性強度の制御性を高めることで,属性操作における最先端の手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-30T13:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。