論文の概要: EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation
- arxiv url: http://arxiv.org/abs/2412.01254v2
- Date: Thu, 13 Mar 2025 08:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 14:52:25.551727
- Title: EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation
- Title(参考訳): エモジディフ:画像生成における高アイデンティティ保存による顔表情制御
- Authors: Liangwei Jiang, Ruida Li, Zhifeng Zhang, Shuo Fang, Chenguang Ma,
- Abstract要約: ポートレート生成における極めて詳細な表現(RGBレベル)と高忠実度IDの同時制御を可能にする,最初のエンドツーエンドソリューションであるEmojiDiffを紹介する。
分離学習では、ID非関連データイテレーション(IDI)を改良し、相互同一性表現ペアを合成する。
また,さらに微調整を行うために,ID強化コントラストアライメント(ICA)を提案する。
- 参考スコア(独自算出の注目度): 8.314556078632412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to bring fine-grained expression control while maintaining high-fidelity identity in portrait generation. This is challenging due to the mutual interference between expression and identity: (i) fine expression control signals inevitably introduce appearance-related semantics (e.g., facial contours, and ratio), which impact the identity of the generated portrait; (ii) even coarse-grained expression control can cause facial changes that compromise identity, since they all act on the face. These limitations remain unaddressed by previous generation methods, which primarily rely on coarse control signals or two-stage inference that integrates portrait animation. Here, we introduce EmojiDiff, the first end-to-end solution that enables simultaneous control of extremely detailed expression (RGB-level) and high-fidelity identity in portrait generation. To address the above challenges, EmojiDiff adopts a two-stage scheme involving decoupled training and fine-tuning. For decoupled training, we innovate ID-irrelevant Data Iteration (IDI) to synthesize cross-identity expression pairs by dividing and optimizing the processes of maintaining expression and altering identity, thereby ensuring stable and high-quality data generation. Training the model with this data, we effectively disentangle fine expression features in the expression template from other extraneous information (e.g., identity, skin). Subsequently, we present ID-enhanced Contrast Alignment (ICA) for further fine-tuning. ICA achieves rapid reconstruction and joint supervision of identity and expression information, thus aligning identity representations of images with and without expression control. Experimental results demonstrate that our method remarkably outperforms counterparts, achieves precise expression control with highly maintained identity, and generalizes well to various diffusion models.
- Abstract(参考訳): 本稿では,肖像画生成における高忠実度IDを維持しつつ,表現のきめ細かい制御を実現することを目的とする。
これは、表現とアイデンティティの相互干渉のためである。
一 生成した肖像画の同一性に影響を与える外観関連意味論(例えば、顔の輪郭及び比率)を必然的に導入すること。
(ii) 粗い表現制御でさえ、顔に作用するため、アイデンティティを損なうような顔変化を引き起こすことがある。
これらの制限は、主に粗い制御信号や、ポートレートアニメーションを統合した2段階の推論に依存する、以前の世代の手法に従わないままである。
本稿では,ポートレート生成における極めて詳細な表現(RGBレベル)と高忠実度IDの同時制御を可能にする,最初のエンドツーエンドソリューションであるEmojiDiffを紹介する。
上記の課題に対処するため、EmojiDiffでは、分離されたトレーニングと微調整を含む2段階のスキームを採用している。
疎結合トレーニングでは、ID非関連データイテレーション(IDI)を改良し、表現の維持と同一性の変更のプロセスの分割と最適化を行い、安定したデータ生成と高品質なデータ生成を実現する。
このデータを用いてモデルを訓練し、表現テンプレート内の微細な表現特徴を他の外部情報(例えば、アイデンティティ、皮膚)から効果的に切り離す。
その後、さらに微調整を行うために、ID強化コントラストアライメント(ICA)を提案する。
ICAは、アイデンティティと表現情報の迅速な再構築と共同管理を実現し、画像のアイデンティティ表現を表現制御なしで整列させる。
実験により,本手法は極めて優れた性能を示し,高度に保持された同一性を持つ正確な表現制御を実現し,様々な拡散モデルによく適合することを示した。
関連論文リスト
- DreamID: High-Fidelity and Fast diffusion-based Face Swapping via Triplet ID Group Learning [8.184155602678754]
DreamIDは、高レベルのID類似性、属性保存、画像の忠実性、高速推論速度を実現する拡散ベースの顔交換モデルである。
本稿では,SwapNet,FaceNet,IDAdapterを組み合わせた拡散モデルアーキテクチャを提案する。
DreamIDは、アイデンティティの類似性、ポーズと表現の保存、イメージの忠実性の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-04-20T06:53:00Z) - Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.608872317957026]
リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。
参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文 参考訳(メタデータ) (2025-03-09T02:36:31Z) - ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition [60.15830516741776]
合成顔認識(SFR)は、実際の顔データの分布を模倣するデータセットを生成することを目的としている。
拡散燃料SFRモデルであるtextID3$を紹介します。
textID3$はID保存損失を利用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
論文 参考訳(メタデータ) (2024-09-26T06:46:40Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - Towards a Simultaneous and Granular Identity-Expression Control in Personalized Face Generation [34.72612800373437]
人間中心のコンテンツ生成では、事前訓練されたテキスト・ツー・イメージモデルでは、ユーザーが望んだポートレート画像を生成するのに苦労する。
同一性表現の同時制御とよりきめ細かい表現合成が可能な,新しい多モード顔生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-02T13:28:39Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Disentangling Identity and Pose for Facial Expression Recognition [54.50747989860957]
より識別的な特徴表現を学習するために,識別モデルを提案し,不整形表情認識(IPD-FER)モデルを提案する。
アイデンティティエンコーダでは、訓練中に訓練済みの顔認識モデルを利用して固定し、特定の表情訓練データに対する制限を軽減する。
合成された中性画像と同一個体の表情画像との差を比較することにより、表現成分はアイデンティティやポーズからさらに切り離される。
論文 参考訳(メタデータ) (2022-08-17T06:48:13Z) - Mutual Information Regularized Identity-aware Facial
ExpressionRecognition in Compressed Video [27.602648102881535]
本稿では,相互情報(MI)を最小化するための新しい協調ミンミニゲームを提案する。
同一人物からの識別ラベルや複数の表現サンプルは不要である。
我々のソリューションは、最近のデコードされた画像ベース手法に匹敵する、あるいは優れた性能を実現することができる。
論文 参考訳(メタデータ) (2020-10-20T21:42:18Z) - LEED: Label-Free Expression Editing via Disentanglement [57.09545215087179]
LEEDフレームワークは、表現ラベルを必要とせずに、前頭顔画像とプロファイル顔画像の両方の表現を編集することができる。
2つの新たな損失は、最適な表現の切り離しと一貫した合成のために設計されている。
論文 参考訳(メタデータ) (2020-07-17T13:36:15Z) - Fine-Grained Expression Manipulation via Structured Latent Space [30.789513209376032]
本稿では,表現の微粒化を操作するために,エンド・ツー・エンドな表現誘導型生成対向ネットワーク(EGGAN)を提案する。
提案手法は,微粒な表現を操作でき,ソースとターゲットの表現間の連続的な中間表現を生成する。
論文 参考訳(メタデータ) (2020-04-21T06:18:34Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。