論文の概要: ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving
- arxiv url: http://arxiv.org/abs/2404.16771v1
- Date: Thu, 25 Apr 2024 17:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:01:06.709924
- Title: ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving
- Title(参考訳): ConsistentID:マルチモーダルファイングラインドID保存による画像生成
- Authors: Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang,
- Abstract要約: ConsistentIDは、微細なマルチモーダル顔のプロンプト下での多彩な画像生成のための革新的な手法である。
我々は、50万以上の顔画像を持つ、きめ細かいポートレートデータセットFGIDを提示し、既存の顔データセットよりも多様性と包括性を提供する。
- 参考スコア(独自算出の注目度): 66.09976326184066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based technologies have made significant strides, particularly in personalized and customized facialgeneration. However, existing methods face challenges in achieving high-fidelity and detailed identity (ID)consistency, primarily due to insufficient fine-grained control over facial areas and the lack of a comprehensive strategy for ID preservation by fully considering intricate facial details and the overall face. To address these limitations, we introduce ConsistentID, an innovative method crafted for diverseidentity-preserving portrait generation under fine-grained multimodal facial prompts, utilizing only a single reference image. ConsistentID comprises two key components: a multimodal facial prompt generator that combines facial features, corresponding facial descriptions and the overall facial context to enhance precision in facial details, and an ID-preservation network optimized through the facial attention localization strategy, aimed at preserving ID consistency in facial regions. Together, these components significantly enhance the accuracy of ID preservation by introducing fine-grained multimodal ID information from facial regions. To facilitate training of ConsistentID, we present a fine-grained portrait dataset, FGID, with over 500,000 facial images, offering greater diversity and comprehensiveness than existing public facial datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results substantiate that our ConsistentID achieves exceptional precision and diversity in personalized facial generation, surpassing existing methods in the MyStyle dataset. Furthermore, while ConsistentID introduces more multimodal ID information, it maintains a fast inference speed during generation.
- Abstract(参考訳): 拡散に基づく技術は、特にパーソナライズされ、カスタマイズされた顔生成において、大きな進歩を遂げている。
しかし、既存の手法では、顔領域のきめ細かい制御が不十分であり、複雑な顔の詳細と全体像を十分に考慮し、ID保存のための包括的な戦略が欠如していることから、高忠実かつ詳細なID整合性を達成する上で困難に直面している。
この制限に対処するために,1つの参照画像のみを利用して,微細なマルチモーダル顔のプロンプト下での多元性保存肖像画生成のための革新的な手法であるConsistentIDを導入する。
ConsistentIDは、顔の特徴と対応する顔の記述、顔の詳細の精度を高めるための全体的な顔コンテキストを組み合わせたマルチモーダルな顔プロンプトジェネレータと、顔領域におけるID一貫性の保存を目的とした顔注意位置決め戦略によって最適化されたID保存ネットワークの2つの重要なコンポーネントから構成される。
これらのコンポーネントは、顔領域から細粒度多モードID情報を導入することにより、ID保存の精度を著しく向上させる。
ConsistentIDのトレーニングを容易にするために,50,000以上の顔画像を持つ微細なポートレートデータセットFGIDを提案する。
例えば、LAION-Face、CelebA、FFHQ、SFHQだ。
実験結果から,我々のConsistentIDは,MyStyleデータセットの既存の手法を超越して,顔の個人化における異常な精度と多様性を達成できることが確認された。
さらに、ConsistentIDはよりマルチモーダルID情報を導入するが、生成時に高速な推論速度を維持する。
関連論文リスト
- ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition [60.15830516741776]
合成顔認識(SFR)は、実際の顔データの分布を模倣するデータセットを生成することを目的としている。
拡散燃料SFRモデルであるtextID3$を紹介します。
textID3$はID保存損失を利用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
論文 参考訳(メタデータ) (2024-09-26T06:46:40Z) - InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。
本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文 参考訳(メタデータ) (2024-04-30T10:16:21Z) - HFORD: High-Fidelity and Occlusion-Robust De-identification for Face
Privacy Protection [60.63915939982923]
顔の身元特定は、身元保護問題を解決するための実践的な方法である。
既存の顔の特定方法にはいくつかの問題がある。
これらの問題に対処するために,HFORD(High-Fidelity and Occlusion-Robust De-identification)法を提案する。
論文 参考訳(メタデータ) (2023-11-15T08:59:02Z) - FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping [62.38898610210771]
そこで我々は,FaceDancerという顔のスワップとID転送のための新しい単一ステージ手法を提案する。
アダプティブ・フィーチャー・フュージョン・アテンション(AFFA)と解釈的特徴類似性規則化(IFSR)の2つの主要なコントリビューションがある。
論文 参考訳(メタデータ) (2022-10-19T11:31:38Z) - A Systematical Solution for Face De-identification [6.244117712209321]
異なるタスクにおいて、人々は顔の特定(De-ID)に様々な要件を持つ
本稿では,これらのDe-ID操作に適合する系統的解を提案する。
本手法は,様々な方法で顔データを柔軟に識別し,画像の画質が向上する。
論文 参考訳(メタデータ) (2021-07-19T02:02:51Z) - Semantic Consistency and Identity Mapping Multi-Component Generative
Adversarial Network for Person Re-Identification [39.605062525247135]
本稿では,1つのドメインから複数のドメインへのスタイル適応を提供する,意味一貫性とアイデンティティマッピングの多成分生成対向ネットワーク(SC-IMGAN)を提案する。
提案手法は,6つの挑戦的人物リidデータセットにおける最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-28T14:12:29Z) - IdentityDP: Differential Private Identification Protection for Face
Images [17.33916392050051]
顔の非識別、別名顔の匿名化は、実際のアイデンティティが隠されている間、同様の外観と同じ背景を持つ別の画像を生成することを指します。
我々は,データ駆動型ディープニューラルネットワークと差分プライバシー機構を組み合わせた顔匿名化フレームワークであるIdentityDPを提案する。
我々のモデルは、顔の識別関連情報を効果的に難読化し、視覚的類似性を保ち、高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2021-03-02T14:26:00Z) - DVG-Face: Dual Variational Generation for Heterogeneous Face Recognition [85.94331736287765]
我々は、HFRを二重生成問題として定式化し、新しいDual Variational Generation(DVG-Face)フレームワークを用いてそれに取り組む。
大規模可視データの豊富なアイデンティティ情報を結合分布に統合する。
同一の同一性を持つ多種多様な多種多様な画像は、ノイズから生成することができる。
論文 参考訳(メタデータ) (2020-09-20T09:48:24Z) - Dual-Attention GAN for Large-Pose Face Frontalization [59.689836951934694]
本稿では,フォトリアリスティック顔フロンダル化のためのDA-GAN(Dual-Attention Generative Adversarial Network)を提案する。
具体的には、ローカル機能と長距離依存関係を統合するために、自己アテンションベースのジェネレータが導入された。
顔領域の局所的特徴を強調するために,新しい顔認識に基づく識別器を適用した。
論文 参考訳(メタデータ) (2020-02-17T20:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。