論文の概要: PIDiff: Image Customization for Personalized Identities with Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.05081v2
- Date: Mon, 12 May 2025 01:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 14:13:13.042013
- Title: PIDiff: Image Customization for Personalized Identities with Diffusion Models
- Title(参考訳): PIDiff:拡散モデルを用いた個人化識別子の画像カスタマイズ
- Authors: Jinyu Gu, Haipeng Liu, Meng Wang, Yang Wang,
- Abstract要約: PIDiff という名前の個人識別テキスト・画像生成のためのファインチューニングに基づく新しい拡散モデルを提案する。
PIDiffは意味的絡み合いを回避し、正確な特徴抽出と局所化を実現する。
- 参考スコア(独自算出の注目度): 13.726194815227464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation for personalized identities aims at incorporating the specific identity into images using a text prompt and an identity image. Based on the powerful generative capabilities of DDPMs, many previous works adopt additional prompts, such as text embeddings and CLIP image embeddings, to represent the identity information, while they fail to disentangle the identity information and background information. As a result, the generated images not only lose key identity characteristics but also suffer from significantly reduced diversity. To address this issue, previous works have combined the W+ space from StyleGAN with diffusion models, leveraging this space to provide a more accurate and comprehensive representation of identity features through multi-level feature extraction. However, the entanglement of identity and background information in in-the-wild images during training prevents accurate identity localization, resulting in severe semantic interference between identity and background. In this paper, we propose a novel fine-tuning-based diffusion model for personalized identities text-to-image generation, named PIDiff, which leverages the W+ space and an identity-tailored fine-tuning strategy to avoid semantic entanglement and achieves accurate feature extraction and localization. Style editing can also be achieved by PIDiff through preserving the characteristics of identity features in the W+ space, which vary from coarse to fine. Through the combination of the proposed cross-attention block and parameter optimization strategy, PIDiff preserves the identity information and maintains the generation capability for in-the-wild images of the pre-trained model during inference. Our experimental results validate the effectiveness of our method in this task.
- Abstract(参考訳): パーソナライズされたアイデンティティのためのテキスト・ツー・イメージ生成は、テキスト・プロンプトとアイデンティティ・イメージを用いて、特定のアイデンティティをイメージに組み込むことを目的としている。
DDPMの強力な生成能力に基づいて、以前の多くの研究では、ID情報と背景情報をアンタングルできない間に、ID情報を表現するためにテキスト埋め込みやCLIP画像埋め込みなどの追加のプロンプトを採用していた。
その結果、生成した画像は重要なアイデンティティ特性を失うだけでなく、多様性が著しく低下する。
この問題に対処するために、以前の研究はStyleGANのW+空間と拡散モデルを組み合わせて、多レベル特徴抽出によりより正確で包括的なアイデンティティ特徴表現を提供するためにこの空間を活用している。
しかし、訓練中のWild画像におけるアイデンティティと背景情報の絡み合いは、正確なアイデンティティローカライゼーションを妨げ、アイデンティティと背景の間の深刻な意味的干渉を引き起こす。
本稿では,W+空間を活用するPIDiffと,セマンティックエンタングルメントを回避し,正確な特徴抽出とローカライゼーションを実現することを目的とした,パーソナライズされた個人識別テキスト・画像生成のためのファインチューニングベース拡散モデルを提案する。
スタイル編集は、粗いものから細かいものまで様々であるW+空間のアイデンティティの特徴を保存することで、PIDiffによっても達成できる。
提案したクロスアテンションブロックとパラメータ最適化戦略の組み合わせにより、PIDiffは識別情報を保存し、推論中に事前学習されたモデルの線内画像の生成能力を維持できる。
本課題における本手法の有効性を実験的に検証した。
関連論文リスト
- ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Personalized Face Inpainting with Diffusion Models by Parallel Visual
Attention [55.33017432880408]
本稿では,パラレル視覚注意(PVA, Parallel Visual Attention, PVA)と拡散モデルとの併用による塗装結果の改善を提案する。
我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。
実験により, PVAは顔の塗り絵と顔の塗り絵の両面において, 言語指導タスクと相容れない同一性を持つことが示された。
論文 参考訳(メタデータ) (2023-12-06T15:39:03Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Disentangle Before Anonymize: A Two-stage Framework for Attribute-preserved and Occlusion-robust De-identification [55.741525129613535]
匿名化前の混乱」は、新しい二段階フレームワーク(DBAF)である
このフレームワークには、Contrastive Identity Disentanglement (CID)モジュールとKey-authorized Reversible Identity Anonymization (KRIA)モジュールが含まれている。
大規模な実験により,本手法は最先端の非識別手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T08:59:02Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z) - StyleID: Identity Disentanglement for Anonymizing Faces [4.048444203617942]
この論文の主な貢献は、フィーチャ保存の匿名化フレームワークであるStyleIDの設計である。
コントリビューションの一環として,新しいアンタングル化指標,補足的アンタングル化法,およびアイデンティティ・アンタングル化に関する新たな知見を提示する。
StyleIDはチューナブルなプライバシを提供し、計算の複雑さが低く、現在の最先端ソリューションを上回っている。
論文 参考訳(メタデータ) (2022-12-28T12:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。