論文の概要: Face-MakeUpV2: Facial Consistency Learning for Controllable Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2510.21775v1
- Date: Fri, 17 Oct 2025 09:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 05:35:45.96958
- Title: Face-MakeUpV2: Facial Consistency Learning for Controllable Text-to-Image Generation
- Title(参考訳): Face-MakeUpV2:制御可能なテキスト・画像生成のための顔の一貫性学習
- Authors: Dawei Dai, Yinxiu Zhou, Chenghang Li, Guolai Jiang, Chengfang Zhang,
- Abstract要約: Face-MakeUpV2は、顔IDの整合性と、参照画像との物理的特性の整合性を維持することを目的とした、顔画像生成モデルである。
実験では、Face-MakeUpV2は、顔IDを保存し、参照画像の物理的整合性を維持するという点で、最高の全体的な性能を達成する。
- 参考スコア(独自算出の注目度): 4.383815913901858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In facial image generation, current text-to-image models often suffer from facial attribute leakage and insufficient physical consistency when responding to local semantic instructions. In this study, we propose Face-MakeUpV2, a facial image generation model that aims to maintain the consistency of face ID and physical characteristics with the reference image. First, we constructed a large-scale dataset FaceCaptionMask-1M comprising approximately one million image-text-masks pairs that provide precise spatial supervision for the local semantic instructions. Second, we employed a general text-to-image pretrained model as the backbone and introduced two complementary facial information injection channels: a 3D facial rendering channel to incorporate the physical characteristics of the image and a global facial feature channel. Third, we formulated two optimization objectives for the supervised learning of our model: semantic alignment in the model's embedding space to mitigate the attribute leakage problem and perceptual loss on facial images to preserve ID consistency. Extensive experiments demonstrated that our Face-MakeUpV2 achieves best overall performance in terms of preserving face ID and maintaining physical consistency of the reference images. These results highlight the practical potential of Face-MakeUpV2 for reliable and controllable facial editing in diverse applications.
- Abstract(参考訳): 顔画像生成において、現在のテキスト・ツー・イメージモデルは、しばしば、局所的な意味的指示に応答する際の顔属性の漏洩と身体的整合性の欠如に悩まされる。
本研究では,顔IDの整合性や身体的特徴と参照画像との整合性を維持することを目的とした顔画像生成モデルであるFace-MakeUpV2を提案する。
まず,約100万の画像-テキスト-マスクペアからなる大規模なデータセットFaceCaptionMask-1Mを構築し,局所的な意味的指示に対して正確な空間的監視を行う。
第2に,画像の物理的特徴を組み込む3次元顔描画チャンネルと,グローバルな顔特徴チャネルの2つの相補的な顔情報注入チャネルを導入した。
3つ目は,モデルの埋め込み空間におけるセマンティックアライメントによる属性漏洩問題の緩和と,IDの整合性を維持するための顔画像の知覚損失の2つの最適化目標を定式化した。
大規模な実験により、顔IDの保存と参照画像の物理的整合性を維持するという点で、当社のFace-MakeUpV2は最高の総合的な性能を達成できた。
これらの結果は、多種多様なアプリケーションにおいて、信頼性と制御可能な顔編集のためのFace-MakeUpV2の実用可能性を強調している。
関連論文リスト
- GPTFace: Generative Pre-training of Facial-Linguistic Transformer by Span Masking and Weakly Correlated Text-image Data [53.92883885331805]
本稿では,大規模なWeb構築データを活用した顔知識学習のための生成事前学習モデルを提案する。
また, 顔属性編集, 表情操作, マスク除去, 写真インペイントなど, 幅広い顔編集作業にも適用可能である。
論文 参考訳(メタデータ) (2025-10-21T06:55:44Z) - My Emotion on your face: The use of Facial Keypoint Detection to preserve Emotions in Latent Space Editing [40.24695765468971]
顔表情の変化を制限するために,顔のキーポイント検出モデルの損失関数の追加を提案する。
実験では,感情変化の最大49%の減少が達成された。
論文 参考訳(メタデータ) (2025-05-09T21:10:27Z) - InstaFace: Identity-Preserving Facial Editing with Single Image Inference [13.067402877443902]
本稿では,単一の画像のみを用いてアイデンティティを保存しながら,現実的な画像を生成するための,新しい拡散ベースのフレームワークInstaFaceを紹介する。
InstaFaceは、トレーニング可能なパラメータを追加することなく、複数の3DMMベースの条件を統合することで、3Dの視点を活用する。
本手法は, 身元保存, 光リアリズム, ポーズ, 表情, 照明の効果的な制御において, 最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-02-27T22:37:09Z) - Face-MakeUp: Multimodal Facial Prompts for Text-to-Image Generation [0.0]
LAION-Faceに基づく400万の高品質な顔画像テキストペア(FaceCaptionHQ-4M)のデータセットを構築した。
本研究では, 顔画像の特徴を抽出・学習し, その特徴を拡散モデルに統合し, 拡散モデルにおける顔の識別特性の保存性を高める。
論文 参考訳(メタデータ) (2025-01-05T12:46:31Z) - OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - A Generalist FaceX via Learning Unified Facial Representation [77.74407008931486]
FaceXは、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルである。
汎用的なFaceXは、一般的な顔編集タスクの精巧なタスク特化モデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-12-31T17:41:48Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。