論文の概要: DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2305.03374v2
- Date: Thu, 18 May 2023 15:36:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 19:15:10.443398
- Title: DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation
- Title(参考訳): DisenBooth: 主観駆動型テキスト・画像生成のためのアイデンティティ保護型ディスタングル・チューニング
- Authors: Hong Chen, Yipeng Zhang, Xin Wang, Xuguang Duan, Yuwei Zhou, Wenwu Zhu
- Abstract要約: 主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
提案するフレームワークは,ID保存埋め込みを用いた主観的テキスト・画像生成のベースラインモデルより優れている。
- 参考スコア(独自算出の注目度): 46.65611789829147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subject-driven text-to-image generation aims to generate customized images of
the given subject based on the text descriptions, which has drawn increasing
attention recently. Existing methods mainly resort to finetuning a pretrained
generative model, where the identity-relevant information and the
identity-irrelevant information are entangled in the latent embedding space.
However, the highly entangled latent embedding may lead to the failure of
subject-driven text-to-image generation as follows: (i) the identity-irrelevant
information hidden in the entangled embedding may dominate the generation
process, resulting in the generated images heavily dependent on the irrelevant
information while ignoring the given text descriptions; (ii) the
identity-relevant information carried in the entangled embedding can not be
appropriately preserved, resulting in identity change of the subject in the
generated images. To tackle the problems, we propose DisenBooth, an
identity-preserving disentangled tuning framework for subject-driven
text-to-image generation in this paper. Specifically, DisenBooth finetunes the
pretrained diffusion model in the denoising process. Different from previous
works that utilize an entangled embedding to denoise each image, DisenBooth
instead utilizes disentangled embeddings to respectively preserve the subject
identity and capture the identity-irrelevant information. We further design the
novel weak denoising and contrastive embedding auxiliary tuning objectives to
achieve the disentanglement. Extensive experiments show that our proposed
DisenBooth framework outperforms baseline models for subject-driven
text-to-image generation with the identity-preserved embedding. Additionally,
by combining the identity-preserved embedding and identity-irrelevant
embedding, DisenBooth demonstrates more generation flexibility and
controllability.
- Abstract(参考訳): 近年注目されているテキスト記述に基づいて、対象者のカスタマイズ画像を生成することを目的としている。
既存の手法は主に、未学習の生成モデルを微調整することであり、そこではアイデンティティ関連情報とアイデンティティ関連情報が潜伏埋め込み空間に絡み合っている。
しかし、非常に絡み合った潜在埋め込みは、主題駆動のテキスト対画像生成の失敗に繋がる可能性がある。
i) 絡み合った埋め込みに隠されたアイデンティティ非関連情報が生成過程を支配し、それによって生成された画像は、所定のテキスト記述を無視しながら、無関係情報に大きく依存する。
(ii)エンタングル埋め込みに担う同一性関連情報は適切に保存できず、生成された画像内の被写体の同一性が変化する。
この問題に対処するため,本論文では,テキスト対画像生成のためのアイデンティティ保存型不等角調整フレームワークである disenbooth を提案する。
具体的には、DisenBoothはデノナイジング過程における事前訓練された拡散モデルを微調整する。
エンタングル埋め込みを使った従来の作品とは異なり、DisenBoothは代わりに、アンタングル埋め込みを使用して、対象のアイデンティティをそれぞれ保存し、アイデンティティ非関連情報をキャプチャする。
さらに,新たに開発した弱雑音化・対比埋め込み補助調律目標を設計,異角化を実現する。
大規模な実験により,本提案フレームワークは,ID保存埋め込みを用いた主観駆動型テキスト画像生成のベースラインモデルよりも優れていた。
さらに、ID保存の埋め込みとID関連の埋め込みを組み合わせることで、DisenBoothはより世代的柔軟性と制御性を示す。
関連論文リスト
- Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Harmonizing Visual and Textual Embeddings for Zero-Shot Text-to-Image Customization [23.04290567321589]
テキスト・ツー・イメージ(T2I)モデルの急増とそのカスタマイズ手法は、ユーザが提供する対象の新たなイメージを生成する。
これらのゼロショットカスタマイズ方法は、特定の対象の画像を視覚埋め込みにエンコードし、テキスト埋め込みと共に拡散誘導に利用する。
与えられたテキスト埋め込みと効果的に調和する視覚埋め込みを提案する。
また、視覚のみの埋め込みを採用し、自己注意スワップを用いて被験者の明確な特徴を注入する。
論文 参考訳(メタデータ) (2024-03-21T06:03:51Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - HFORD: High-Fidelity and Occlusion-Robust De-identification for Face
Privacy Protection [60.63915939982923]
顔の身元特定は、身元保護問題を解決するための実践的な方法である。
既存の顔の特定方法にはいくつかの問題がある。
これらの問題に対処するために,HFORD(High-Fidelity and Occlusion-Robust De-identification)法を提案する。
論文 参考訳(メタデータ) (2023-11-15T08:59:02Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - StyleID: Identity Disentanglement for Anonymizing Faces [4.048444203617942]
この論文の主な貢献は、フィーチャ保存の匿名化フレームワークであるStyleIDの設計である。
コントリビューションの一環として,新しいアンタングル化指標,補足的アンタングル化法,およびアイデンティティ・アンタングル化に関する新たな知見を提示する。
StyleIDはチューナブルなプライバシを提供し、計算の複雑さが低く、現在の最先端ソリューションを上回っている。
論文 参考訳(メタデータ) (2022-12-28T12:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。