論文の概要: FaceCrafter: Identity-Conditional Diffusion with Disentangled Control over Facial Pose, Expression, and Emotion
- arxiv url: http://arxiv.org/abs/2505.15313v1
- Date: Wed, 21 May 2025 09:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.425801
- Title: FaceCrafter: Identity-Conditional Diffusion with Disentangled Control over Facial Pose, Expression, and Emotion
- Title(参考訳): FaceCrafter: 表情・表情・感情に対するアンタングル制御によるアイデンティティ・コンディション拡散
- Authors: Kazuaki Mishima, Antoni Bigata Casademunt, Stavros Petridis, Maja Pantic, Kenji Suzuki,
- Abstract要約: 本研究では,アイデンティティ保存を損なうことなく,ポーズ,表情,感情を正確に制御できる新しいアイデンティティ条件拡散モデルを提案する。
提案手法は,ポーズ,表情,感情に対する制御精度の点で既存の手法を超越し,アイデンティティのみの条件下での生成の多様性を向上させる。
- 参考スコア(独自算出の注目度): 31.56574795895158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human facial images encode a rich spectrum of information, encompassing both stable identity-related traits and mutable attributes such as pose, expression, and emotion. While recent advances in image generation have enabled high-quality identity-conditional face synthesis, precise control over non-identity attributes remains challenging, and disentangling identity from these mutable factors is particularly difficult. To address these limitations, we propose a novel identity-conditional diffusion model that introduces two lightweight control modules designed to independently manipulate facial pose, expression, and emotion without compromising identity preservation. These modules are embedded within the cross-attention layers of the base diffusion model, enabling precise attribute control with minimal parameter overhead. Furthermore, our tailored training strategy, which leverages cross-attention between the identity feature and each non-identity control feature, encourages identity features to remain orthogonal to control signals, enhancing controllability and diversity. Quantitative and qualitative evaluations, along with perceptual user studies, demonstrate that our method surpasses existing approaches in terms of control accuracy over pose, expression, and emotion, while also improving generative diversity under identity-only conditioning.
- Abstract(参考訳): 人間の顔画像は、安定したアイデンティティに関連する特徴と、ポーズ、表情、感情などの可変属性の両方を含む、豊富な情報をエンコードする。
画像生成の最近の進歩により、高品質な顔合成が可能になったが、非同一性属性の正確な制御は依然として困難であり、これらの変化要因からアイデンティティを分離することは特に困難である。
これらの制約に対処するために,顔のポーズ,表情,感情を独立に操作する2つの軽量制御モジュールを,アイデンティティ保存を損なうことなく導入する,新しいアイデンティティ条件拡散モデルを提案する。
これらのモジュールはベース拡散モデルのクロスアテンション層に埋め込まれており、パラメータのオーバーヘッドを最小限に抑えた正確な属性制御を可能にする。
さらに,同一性特徴と非同一性制御特徴との相互関連性を活用し,信号の直交性を維持し,制御性や多様性の向上を図る。
定量的かつ質的な評価は、知覚的ユーザスタディとともに、ポーズ、表情、感情に対する制御精度の観点から既存のアプローチを超越し、またアイデンティティのみの条件下での生成多様性を向上させることを実証している。
関連論文リスト
- High-Fidelity Diffusion Face Swapping with ID-Constrained Facial Conditioning [39.09330483562798]
Face swappingは、ポーズや表現などのターゲット属性を保持しながら、ソースの顔認証をターゲットにシームレスに転送することを目的としている。
拡散モデルは、その優れた生成能力で知られており、最近、フェイススワッピングの品質を向上する可能性を示している。
本稿では,拡散型顔交換における2つの課題について述べる。
論文 参考訳(メタデータ) (2025-03-28T06:50:17Z) - EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation [8.314556078632412]
ポートレート生成における極めて詳細な表現(RGBレベル)と高忠実度IDの同時制御を可能にする,最初のエンドツーエンドソリューションであるEmojiDiffを紹介する。
分離学習では、ID非関連データイテレーション(IDI)を改良し、相互同一性表現ペアを合成する。
また,さらに微調整を行うために,ID強化コントラストアライメント(ICA)を提案する。
論文 参考訳(メタデータ) (2024-12-02T08:24:11Z) - ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition [60.15830516741776]
合成顔認識(SFR)は、実際の顔データの分布を模倣するデータセットを生成することを目的としている。
拡散燃料SFRモデルであるtextID3$を紹介します。
textID3$はID保存損失を利用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
論文 参考訳(メタデータ) (2024-09-26T06:46:40Z) - Disentangle Before Anonymize: A Two-stage Framework for Attribute-preserved and Occlusion-robust De-identification [55.741525129613535]
匿名化前の混乱」は、新しい二段階フレームワーク(DBAF)である
このフレームワークには、Contrastive Identity Disentanglement (CID)モジュールとKey-authorized Reversible Identity Anonymization (KRIA)モジュールが含まれている。
大規模な実験により,本手法は最先端の非識別手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T08:59:02Z) - Controllable Inversion of Black-Box Face Recognition Models via
Diffusion [8.620807177029892]
我々は,事前学習した顔認識モデルの潜在空間を,完全なモデルアクセスなしで反転させる作業に取り組む。
本研究では,条件付き拡散モデル損失が自然発生し,逆分布から効果的にサンプル化できることを示す。
本手法は,生成過程を直感的に制御できる最初のブラックボックス顔認識モデル逆変換法である。
論文 参考訳(メタデータ) (2023-03-23T03:02:09Z) - FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping [62.38898610210771]
そこで我々は,FaceDancerという顔のスワップとID転送のための新しい単一ステージ手法を提案する。
アダプティブ・フィーチャー・フュージョン・アテンション(AFFA)と解釈的特徴類似性規則化(IFSR)の2つの主要なコントリビューションがある。
論文 参考訳(メタデータ) (2022-10-19T11:31:38Z) - Disentangling Identity and Pose for Facial Expression Recognition [54.50747989860957]
より識別的な特徴表現を学習するために,識別モデルを提案し,不整形表情認識(IPD-FER)モデルを提案する。
アイデンティティエンコーダでは、訓練中に訓練済みの顔認識モデルを利用して固定し、特定の表情訓練データに対する制限を軽減する。
合成された中性画像と同一個体の表情画像との差を比較することにより、表現成分はアイデンティティやポーズからさらに切り離される。
論文 参考訳(メタデータ) (2022-08-17T06:48:13Z) - FICGAN: Facial Identity Controllable GAN for De-identification [34.38379234653657]
本稿では,プライバシー保護を確実にした高品質な顔画像を生成するための顔識別制御可能GAN(FICGAN)を提案する。
この分析に基づいて,顔画像上の非同一性属性から同一性属性をアンタングル化することを学ぶ,自己エンコーダに基づく条件生成モデルであるFICGANを開発した。
論文 参考訳(メタデータ) (2021-10-02T07:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。