論文の概要: PuLID: Pure and Lightning ID Customization via Contrastive Alignment
- arxiv url: http://arxiv.org/abs/2404.16022v1
- Date: Wed, 24 Apr 2024 17:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:31:49.083979
- Title: PuLID: Pure and Lightning ID Customization via Contrastive Alignment
- Title(参考訳): PuLID: コントラストアライメントによるPureとLightning IDのカスタマイズ
- Authors: Zinan Guo, Yanze Wu, Zhuowei Chen, Lang Chen, Qian He,
- Abstract要約: テキスト・ツー・イメージ生成のためのPuLID(Pure and Lightning ID customization)を提案する。
PuLIDにはLightning T2Iブランチと標準拡散ブランチが組み込まれており、オリジナルのモデルの破壊を最小限に抑えている。
実験の結果,PuLIDはIDの忠実度と編集性の両方において優れた性能を示した。
- 参考スコア(独自算出の注目度): 7.012130370533257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Pure and Lightning ID customization (PuLID), a novel tuning-free ID customization method for text-to-image generation. By incorporating a Lightning T2I branch with a standard diffusion one, PuLID introduces both contrastive alignment loss and accurate ID loss, minimizing disruption to the original model and ensuring high ID fidelity. Experiments show that PuLID achieves superior performance in both ID fidelity and editability. Another attractive property of PuLID is that the image elements (e.g., background, lighting, composition, and style) before and after the ID insertion are kept as consistent as possible. Codes and models will be available at https://github.com/ToTheBeginning/PuLID
- Abstract(参考訳): 本稿では,PuLID(Pure and Lightning ID customization)を提案する。
標準拡散器にLightning T2Iブランチを組み込むことで、PuLIDはコントラストアライメント損失と正確なID損失の両方を導入し、オリジナルのモデルの破壊を最小限に抑え、高いID忠実度を確保する。
実験の結果,PuLIDはIDの忠実度と編集性の両方において優れた性能を示した。
PuLIDのもうひとつの魅力は、ID挿入前後のイメージ要素(例えば、背景、照明、構成、スタイル)を可能な限り一貫した状態に保つことである。
コードとモデルはhttps://github.com/ToTheBeginning/PuLIDで入手できる。
関連論文リスト
- Doubly Abductive Counterfactual Inference for Text-based Image Editing [130.46583155383735]
本稿では,1つの画像のテキストベースの画像編集(TBIE)について,反事実推論を用いて検討する。
本稿では,DAC(Dububly Abductive Counterfactual Inference framework)を提案する。
我々のDACは編集性と忠実さのトレードオフをうまく達成しています。
論文 参考訳(メタデータ) (2024-03-05T13:59:21Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Magic-Me: Identity-Specific Video Customized Diffusion [72.05925155000165]
本稿では、VCD(Video Custom Diffusion)と呼ばれる、制御可能な被写体識別制御可能なビデオ生成フレームワークを提案する。
いくつかの画像によって定義された特定IDにより、VCDはアイデンティティ特性を強化し、安定したビデオ出力のためにフレームワイズ相関を注入する。
我々は、VCDがベースラインよりも優れたIDで安定した動画を生成可能であることを検証するために、広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-14T18:13:51Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文 参考訳(メタデータ) (2024-01-15T07:50:18Z) - PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding [102.07914175196817]
PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
論文 参考訳(メタデータ) (2023-12-07T17:32:29Z) - SingleInsert: Inserting New Concepts from a Single Image into
Text-to-Image Models for Flexible Editing [59.3017821001455]
SingleInsert(シングルインサート)は、イメージ・トゥ・テキスト(I2T)のインバージョン手法であり、同じ概念を含む単一のソースイメージを持つ。
本研究では,SingleInsertという,シングルイメージI2Tインバージョンのためのシンプルで効果的なベースラインを提案する。
提案手法により、SingleInsertは、フレキシブルな編集を可能にしながら、高い視覚的忠実度でシングルコンセプト生成に優れる。
論文 参考訳(メタデータ) (2023-10-12T07:40:39Z) - Illumination Distillation Framework for Nighttime Person
Re-Identification and A New Benchmark [29.6321130075977]
本稿では、夜間のRe-IDにおける低照度課題に対処するための照明蒸留フレームワーク(IDF)を提案する。
IDFは、マスターブランチ、照明増強ブランチ、照明蒸留モジュールから構成される。
私たちは、600のIDを含むNight600という、現実世界の夜間人物Re-IDデータセットを構築しました。
論文 参考訳(メタデータ) (2023-08-31T06:45:56Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Dual-Stream Reciprocal Disentanglement Learning for Domain Adaption
Person Re-Identification [44.80508095481811]
本稿では,Dual-stream Reciprocal Disentanglement Learning (DRDL) という新しい手法を提案する。
DRDLでは、まず2つのエンコーダがID関連およびID非関連の特徴抽出のために構築され、それぞれ関連する分類器によって測定される。
提案手法は,計算複雑性を著しく低減するだけでなく,ID関連の特徴から冗長な情報を除去する。
論文 参考訳(メタデータ) (2021-06-26T03:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。