論文の概要: EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation
- arxiv url: http://arxiv.org/abs/2412.01254v1
- Date: Mon, 02 Dec 2024 08:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:17.109314
- Title: EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation
- Title(参考訳): エモジディフ:画像生成における高アイデンティティ保存による顔表情制御
- Authors: Liangwei Jiang, Ruida Li, Zhifeng Zhang, Shuo Fang, Chenguang Ma,
- Abstract要約: 既存の手法では、中性あるいは立体的な表現で肖像画を合成する傾向がある。
EmojiDiffは、微細な表現とアイデンティティの同時制御を容易にするエンドツーエンドのソリューションである。
- 参考スコア(独自算出の注目度): 8.314556078632412
- License:
- Abstract: This paper aims to bring fine-grained expression control to identity-preserving portrait generation. Existing methods tend to synthesize portraits with either neutral or stereotypical expressions. Even when supplemented with control signals like facial landmarks, these models struggle to generate accurate and vivid expressions following user instructions. To solve this, we introduce EmojiDiff, an end-to-end solution to facilitate simultaneous dual control of fine expression and identity. Unlike the conventional methods using coarse control signals, our method directly accepts RGB expression images as input templates to provide extremely accurate and fine-grained expression control in the diffusion process. As its core, an innovative decoupled scheme is proposed to disentangle expression features in the expression template from other extraneous information, such as identity, skin, and style. On one hand, we introduce \textbf{I}D-irrelevant \textbf{D}ata \textbf{I}teration (IDI) to synthesize extremely high-quality cross-identity expression pairs for decoupled training, which is the crucial foundation to filter out identity information hidden in the expressions. On the other hand, we meticulously investigate network layer function and select expression-sensitive layers to inject reference expression features, effectively preventing style leakage from expression signals. To further improve identity fidelity, we propose a novel fine-tuning strategy named \textbf{I}D-enhanced \textbf{C}ontrast \textbf{A}lignment (ICA), which eliminates the negative impact of expression control on original identity preservation. Experimental results demonstrate that our method remarkably outperforms counterparts, achieves precise expression control with highly maintained identity, and generalizes well to various diffusion models.
- Abstract(参考訳): 本論文は、個人性保存肖像画生成に微粒化表現制御を導入することを目的とする。
既存の手法では、中性あるいは立体的な表現で肖像画を合成する傾向がある。
顔のランドマークのようなコントロールシグナルを補足しても、これらのモデルはユーザーの指示に従って正確で鮮明な表現を生成するのに苦労する。
この問題を解決するために,表現とアイデンティティの同時二重制御を容易にするエンドツーエンドソリューションであるEmojiDiffを導入する。
粗い制御信号を用いた従来の手法とは異なり,本手法はRGB表現画像を入力テンプレートとして直接受け入れ,拡散過程において極めて正確かつきめ細かな表現制御を実現する。
その中核として、表現テンプレート内の表現特徴をアイデンティティ、スキン、スタイルといった他の外部情報から切り離す革新的な分離スキームが提案されている。
一方,非関連な \textbf{I}D-irrelevant \textbf{D}ata \textbf{I}teration (IDI) を導入し,非結合学習のための極めて高品質なクロスアイデンティティ表現ペアを合成する。
一方,ネットワーク層機能や表現に敏感な層を選択して参照表現特徴を注入し,表現信号からのスタイルリークを効果的に防止する。
アイデンティティの忠実度をさらに向上するために,表現制御が元のアイデンティティ保存に悪影響を与えることを排除した,新しい微調整戦略である \textbf{I}D-enhanced \textbf{C}ontrast \textbf{A}lignment (ICA) を提案する。
実験により,本手法は極めて優れた性能を示し,高度に保持された同一性を持つ正確な表現制御を実現し,様々な拡散モデルによく適合することを示した。
関連論文リスト
- Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - Towards a Simultaneous and Granular Identity-Expression Control in Personalized Face Generation [34.72612800373437]
人間中心のコンテンツ生成では、事前訓練されたテキスト・ツー・イメージモデルでは、ユーザーが望んだポートレート画像を生成するのに苦労する。
同一性表現の同時制御とよりきめ細かい表現合成が可能な,新しい多モード顔生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-02T13:28:39Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Disentangling Identity and Pose for Facial Expression Recognition [54.50747989860957]
より識別的な特徴表現を学習するために,識別モデルを提案し,不整形表情認識(IPD-FER)モデルを提案する。
アイデンティティエンコーダでは、訓練中に訓練済みの顔認識モデルを利用して固定し、特定の表情訓練データに対する制限を軽減する。
合成された中性画像と同一個体の表情画像との差を比較することにより、表現成分はアイデンティティやポーズからさらに切り離される。
論文 参考訳(メタデータ) (2022-08-17T06:48:13Z) - Mutual Information Regularized Identity-aware Facial
ExpressionRecognition in Compressed Video [27.602648102881535]
本稿では,相互情報(MI)を最小化するための新しい協調ミンミニゲームを提案する。
同一人物からの識別ラベルや複数の表現サンプルは不要である。
我々のソリューションは、最近のデコードされた画像ベース手法に匹敵する、あるいは優れた性能を実現することができる。
論文 参考訳(メタデータ) (2020-10-20T21:42:18Z) - LEED: Label-Free Expression Editing via Disentanglement [57.09545215087179]
LEEDフレームワークは、表現ラベルを必要とせずに、前頭顔画像とプロファイル顔画像の両方の表現を編集することができる。
2つの新たな損失は、最適な表現の切り離しと一貫した合成のために設計されている。
論文 参考訳(メタデータ) (2020-07-17T13:36:15Z) - Fine-Grained Expression Manipulation via Structured Latent Space [30.789513209376032]
本稿では,表現の微粒化を操作するために,エンド・ツー・エンドな表現誘導型生成対向ネットワーク(EGGAN)を提案する。
提案手法は,微粒な表現を操作でき,ソースとターゲットの表現間の連続的な中間表現を生成する。
論文 参考訳(メタデータ) (2020-04-21T06:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。