論文の概要: PuLID: Pure and Lightning ID Customization via Contrastive Alignment
- arxiv url: http://arxiv.org/abs/2404.16022v2
- Date: Thu, 31 Oct 2024 12:17:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:57:36.439336
- Title: PuLID: Pure and Lightning ID Customization via Contrastive Alignment
- Title(参考訳): PuLID: コントラストアライメントによるPureとLightning IDのカスタマイズ
- Authors: Zinan Guo, Yanze Wu, Zhuowei Chen, Lang Chen, Peng Zhang, Qian He,
- Abstract要約: テキスト・ツー・イメージ生成のためのPuLID(Pure and Lightning ID customization)を提案する。
PuLIDにはLightning T2Iブランチと標準拡散ブランチが組み込まれており、オリジナルのモデルの破壊を最小限に抑えている。
実験の結果,PuLIDはIDの忠実度と編集性の両方において優れた性能を示した。
- 参考スコア(独自算出の注目度): 8.770435059107346
- License:
- Abstract: We propose Pure and Lightning ID customization (PuLID), a novel tuning-free ID customization method for text-to-image generation. By incorporating a Lightning T2I branch with a standard diffusion one, PuLID introduces both contrastive alignment loss and accurate ID loss, minimizing disruption to the original model and ensuring high ID fidelity. Experiments show that PuLID achieves superior performance in both ID fidelity and editability. Another attractive property of PuLID is that the image elements (e.g., background, lighting, composition, and style) before and after the ID insertion are kept as consistent as possible. Codes and models are available at https://github.com/ToTheBeginning/PuLID
- Abstract(参考訳): 本稿では,PuLID(Pure and Lightning ID customization)を提案する。
標準拡散器にLightning T2Iブランチを組み込むことで、PuLIDはコントラストアライメント損失と正確なID損失の両方を導入し、オリジナルのモデルの破壊を最小限に抑え、高いID忠実度を確保する。
実験の結果,PuLIDはIDの忠実度と編集性の両方において優れた性能を示した。
PuLIDのもうひとつの魅力は、ID挿入前後のイメージ要素(例えば、背景、照明、構成、スタイル)を可能な限り一貫した状態に保つことである。
コードとモデルはhttps://github.com/ToTheBeginning/PuLIDで入手できる。
関連論文リスト
- UniPortrait: A Unified Framework for Identity-Preserving Single- and Multi-Human Image Personalization [10.760799194716922]
UniPortraitは、シングルIDとマルチIDのカスタマイズを統一する革新的なヒューマンイメージパーソナライズフレームワークである。
UniPortraitは、ID埋め込みモジュールとIDルーティングモジュールの2つのプラグイン・アンド・プレイモジュールで構成されている。
論文 参考訳(メタデータ) (2024-08-12T06:27:29Z) - AnyMaker: Zero-shot General Object Customization via Decoupled Dual-Level ID Injection [72.41427550339296]
我々は,高ID忠実度とフレキシブルテキスト編集性を備えた汎用オブジェクトを生成するフレームワークであるAnyMakerを紹介する。
AnyMakerの有効性は、新しい一般ID抽出、二重レベルID注入、およびID認識デカップリングに起因している。
我々のアプローチを検証し、汎用オブジェクトのカスタマイズの研究を促進するため、我々は最初の大規模汎用IDデータセットを作成します。
論文 参考訳(メタデータ) (2024-06-17T15:26:22Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - MasterWeaver: Taming Editability and Face Identity for Personalized Text-to-Image Generation [59.13765130528232]
MasterWeaverは、忠実なアイデンティティとフレキシブルな編集性の両方でパーソナライズされた画像を生成するために設計された、テスト時のチューニング不要な手法である。
具体的には、MasterWeaverはエンコーダを採用して、アイデンティティ機能を抽出し、追加のクロスアテンションを通じて画像生成をステアリングする。
同一性を維持しながら編集性を向上させるため,MasterWeaverの編集方向をオリジナルのT2Iモデルと整合させる訓練用編集方向損失を提案する。
論文 参考訳(メタデータ) (2024-05-09T14:42:16Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding [102.07914175196817]
PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
論文 参考訳(メタデータ) (2023-12-07T17:32:29Z) - SingleInsert: Inserting New Concepts from a Single Image into
Text-to-Image Models for Flexible Editing [59.3017821001455]
SingleInsert(シングルインサート)は、イメージ・トゥ・テキスト(I2T)のインバージョン手法であり、同じ概念を含む単一のソースイメージを持つ。
本研究では,SingleInsertという,シングルイメージI2Tインバージョンのためのシンプルで効果的なベースラインを提案する。
提案手法により、SingleInsertは、フレキシブルな編集を可能にしながら、高い視覚的忠実度でシングルコンセプト生成に優れる。
論文 参考訳(メタデータ) (2023-10-12T07:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。