論文の概要: Towards a Simultaneous and Granular Identity-Expression Control in
Personalized Face Generation
- arxiv url: http://arxiv.org/abs/2401.01207v1
- Date: Tue, 2 Jan 2024 13:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 13:48:05.606989
- Title: Towards a Simultaneous and Granular Identity-Expression Control in
Personalized Face Generation
- Title(参考訳): パーソナライズされた顔生成における同時・粒度表現制御に向けて
- Authors: Renshuai Liu, Bowen Ma, Wei Zhang, Zhipeng Hu, Changjie Fan, Tangjie
Lv, Yu Ding, Xuan Cheng
- Abstract要約: 人間中心のコンテンツ生成では、事前訓練されたテキスト・ツー・イメージモデルでは、ユーザーが望んだポートレート画像を生成するのに苦労する。
同一性表現の同時制御とよりきめ細かい表現合成が可能な,新しい多モード顔生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.221789495796244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In human-centric content generation, the pre-trained text-to-image models
struggle to produce user-wanted portrait images, which retain the identity of
individuals while exhibiting diverse expressions. This paper introduces our
efforts towards personalized face generation. To this end, we propose a novel
multi-modal face generation framework, capable of simultaneous
identity-expression control and more fine-grained expression synthesis. Our
expression control is so sophisticated that it can be specialized by the
fine-grained emotional vocabulary. We devise a novel diffusion model that can
undertake the task of simultaneously face swapping and reenactment. Due to the
entanglement of identity and expression, it's nontrivial to separately and
precisely control them in one framework, thus has not been explored yet. To
overcome this, we propose several innovative designs in the conditional
diffusion model, including balancing identity and expression encoder, improved
midpoint sampling, and explicitly background conditioning. Extensive
experiments have demonstrated the controllability and scalability of the
proposed framework, in comparison with state-of-the-art text-to-image, face
swapping, and face reenactment methods.
- Abstract(参考訳): 人間中心のコンテンツ生成では、事前訓練されたテキストから画像へのモデルが、多様な表現を表現しながら個人のアイデンティティを保持する、利用者が望むポートレート画像の作成に苦労している。
本稿では,パーソナライズされた顔生成への取り組みを紹介する。
そこで,本稿では,アイデンティティ表現制御とより詳細な表現合成を同時に行うマルチモーダル顔生成フレームワークを提案する。
私たちの表現制御は非常に洗練されたので、きめ細かい感情的な語彙を専門化できます。
本研究では,顔交換と再現を同時に行う新しい拡散モデルを提案する。
アイデンティティと表現の絡み合いのため、1つのフレームワークで個別に正確に制御することは簡単ではないため、まだ検討されていない。
そこで本稿では,条件拡散モデルにおいて,アイデンティティと式エンコーダのバランス,中間点サンプリングの改善,背景条件付けなど,いくつかの革新的な設計を提案する。
広範な実験により、提案されたフレームワークの制御可能性とスケーラビリティが実証され、最先端のテキストから画像への変換、顔の交換、顔の再現方法と比較された。
関連論文リスト
- Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - VariTex: Variational Neural Face Textures [0.0]
VariTexは、ニューラルフェイステクスチャの変動潜在特徴空間を学習する手法である。
頭部の完全な画像を生成するために,毛髪などの正確な詳細情報を生成する付加デコーダを提案する。
その結果、顔のポーズ、顔の形状、表情の微粒度を制御できる新しいアイデンティティの幾何学的に一貫性のある画像を生成することができる。
論文 参考訳(メタデータ) (2021-04-13T07:47:53Z) - LEED: Label-Free Expression Editing via Disentanglement [57.09545215087179]
LEEDフレームワークは、表現ラベルを必要とせずに、前頭顔画像とプロファイル顔画像の両方の表現を編集することができる。
2つの新たな損失は、最適な表現の切り離しと一貫した合成のために設計されている。
論文 参考訳(メタデータ) (2020-07-17T13:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。