論文の概要: DisenBooth: Disentangled Parameter-Efficient Tuning for Subject-Driven
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2305.03374v1
- Date: Fri, 5 May 2023 09:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 14:50:50.264932
- Title: DisenBooth: Disentangled Parameter-Efficient Tuning for Subject-Driven
Text-to-Image Generation
- Title(参考訳): DisenBooth: 主観駆動型テキスト・画像生成のための遠方パラメータ効率チューニング
- Authors: Hong Chen, Yipeng Zhang, Xin Wang, Xuguang Duan, Yuwei Zhou, Wenwu Zhu
- Abstract要約: DisenBoothは、被写体駆動のテキスト・ツー・イメージ生成のための非絡み合ったパラメータ効率のチューニングフレームワークである。
DisenBoothは、主題のアイデンティティを同時に保存し、テキスト記述に準拠する新しいイメージを生成することができる。
- 参考スコア(独自算出の注目度): 46.65611789829147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a small set of images of a specific subject, subject-driven
text-to-image generation aims to generate customized images of the subject
according to new text descriptions, which has attracted increasing attention in
the community recently. Current subject-driven text-to-image generation methods
are mainly based on finetuning a pretrained large-scale text-to-image
generation model. However, these finetuning methods map the images of the
subject into an embedding highly entangled with subject-identity-unrelated
information, which may result in the inconsistency between the generated images
and the text descriptions and the changes in the subject identity. To tackle
the problem, we propose DisenBooth, a disentangled parameter-efficient tuning
framework for subject-driven text-to-image generation. DisenBooth enables
generating new images that simultaneously preserve the subject identity and
conform to the text descriptions, by disentangling the embedding into an
identity-related and an identity-unrelated part. Specifically, DisenBooth is
based on the pretrained diffusion models and conducts finetuning in the
diffusion denoising process, where a shared identity embedding and an
image-specific identity-unrelated embedding are utilized jointly for denoising
each image. To make the two embeddings disentangled, two auxiliary objectives
are proposed. Additionally, to improve the finetuning efficiency, a
parameter-efficient finetuning strategy is adopted. Extensive experiments show
that our DisenBooth can faithfully learn well-disentangled identity-related and
identity-unrelated embeddings. With the shared identity embedding, DisenBooth
demonstrates superior subject-driven text-to-image generation ability.
Additionally, DisenBooth provides a more flexible and controllable framework
with different combinations of the disentangled embeddings.
- Abstract(参考訳): 特定の主題の画像の小さなセットが与えられた場合、新たなテキスト記述に基づいて、主題をカスタマイズした画像を生成することを目的としており、近年、コミュニティで注目が集まっている。
現在の主題駆動テキスト対画像生成法は、主に事前訓練された大規模テキスト対画像生成モデルの微調整に基づいている。
しかし、これらの微調整方法は、被写体の画像を被写体同一性非関連情報と高度に絡み合う埋め込みにマッピングし、生成された画像とテキスト記述との間の不整合と被写体同一性の変化をもたらす可能性がある。
そこで本研究では,主題駆動テキスト対画像生成のための不連続パラメータ効率の高いチューニングフレームワークである disenbooth を提案する。
DisenBoothは、ID関連およびID非関連部分への埋め込みを解除することにより、主題のアイデンティティを同時に保存し、テキスト記述に準拠する新しい画像を生成することができる。
具体的には、disenboothは予め訓練された拡散モデルに基づいて、共有id埋め込みと画像固有id非関連埋め込みを併用して各画像のデノー化を行う拡散デノージングプロセスにおいて微調整を行う。
2つの組込みを乱すため、2つの補助目的が提案されている。
また、微調整効率を向上させるためにパラメータ効率の良い微調整戦略を採用する。
広範囲にわたる実験により、DisenBoothは、よく異なるアイデンティティ関連およびアイデンティティ非関連埋め込みを忠実に学習できることが示されている。
共有id埋め込みにより、disenboothは、優れたサブジェクト駆動のテキスト対イメージ生成能力を示している。
さらに、disenboothは、異なる組込みの組み合わせで、より柔軟で制御可能なフレームワークを提供する。
関連論文リスト
- Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Harmonizing Visual and Textual Embeddings for Zero-Shot Text-to-Image Customization [23.04290567321589]
テキスト・ツー・イメージ(T2I)モデルの急増とそのカスタマイズ手法は、ユーザが提供する対象の新たなイメージを生成する。
これらのゼロショットカスタマイズ方法は、特定の対象の画像を視覚埋め込みにエンコードし、テキスト埋め込みと共に拡散誘導に利用する。
与えられたテキスト埋め込みと効果的に調和する視覚埋め込みを提案する。
また、視覚のみの埋め込みを採用し、自己注意スワップを用いて被験者の明確な特徴を注入する。
論文 参考訳(メタデータ) (2024-03-21T06:03:51Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - HFORD: High-Fidelity and Occlusion-Robust De-identification for Face
Privacy Protection [60.63915939982923]
顔の身元特定は、身元保護問題を解決するための実践的な方法である。
既存の顔の特定方法にはいくつかの問題がある。
これらの問題に対処するために,HFORD(High-Fidelity and Occlusion-Robust De-identification)法を提案する。
論文 参考訳(メタデータ) (2023-11-15T08:59:02Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - StyleID: Identity Disentanglement for Anonymizing Faces [4.048444203617942]
この論文の主な貢献は、フィーチャ保存の匿名化フレームワークであるStyleIDの設計である。
コントリビューションの一環として,新しいアンタングル化指標,補足的アンタングル化法,およびアイデンティティ・アンタングル化に関する新たな知見を提示する。
StyleIDはチューナブルなプライバシを提供し、計算の複雑さが低く、現在の最先端ソリューションを上回っている。
論文 参考訳(メタデータ) (2022-12-28T12:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。