論文の概要: EZIGen: Enhancing zero-shot subject-driven image generation with precise subject encoding and decoupled guidance
- arxiv url: http://arxiv.org/abs/2409.08091v2
- Date: Tue, 1 Oct 2024 17:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 21:31:36.153502
- Title: EZIGen: Enhancing zero-shot subject-driven image generation with precise subject encoding and decoupled guidance
- Title(参考訳): EZIGen: 正確な被写体エンコーディングとデカップリング誘導によるゼロショット被写体駆動画像生成の強化
- Authors: Zicheng Duan, Yuxuan Ding, Chenhui Gou, Ziqin Zhou, Ethan Smith, Lingqiao Liu,
- Abstract要約: ゼロショットの被写体駆動画像生成は、所定のサンプル画像から被写体を組み込んだ画像を作成することを目的としている。
課題は、被験者の身元を保存しつつ、主題の外観の特定の側面を変更する必要があるテキストプロンプトと整合させることである。
1) 画像エンコーダの設計はアイデンティティの保存品質に大きな影響を与え,(2) テキストのアライメントとアイデンティティの保存の両方において,テキストと主題のガイダンスの分離が不可欠である。
- 参考スコア(独自算出の注目度): 20.430259028981094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot subject-driven image generation aims to produce images that incorporate a subject from a given example image. The challenge lies in preserving the subject's identity while aligning with the text prompt which often requires modifying certain aspects of the subject's appearance. Despite advancements in diffusion model based methods, existing approaches still struggle to balance identity preservation with text prompt alignment. In this study, we conducted an in-depth investigation into this issue and uncovered key insights for achieving effective identity preservation while maintaining a strong balance. Our key findings include: (1) the design of the subject image encoder significantly impacts identity preservation quality, and (2) separating text and subject guidance is crucial for both text alignment and identity preservation. Building on these insights, we introduce a new approach called EZIGen, which employs two main strategies: a carefully crafted subject image Encoder based on the pretrained UNet of the Stable Diffusion model to ensure high-quality identity transfer, following a process that decouples the guidance stages and iteratively refines the initial image layout. Through these strategies, EZIGen achieves state-of-the-art results on multiple subject-driven benchmarks with a unified model and 100 times less training data. The demo page is available at: https://zichengduan.github.io/pages/EZIGen/index.html.
- Abstract(参考訳): ゼロショットの被写体駆動画像生成は、所定のサンプル画像から被写体を組み込んだ画像を作成することを目的としている。
課題は、被験者の身元を保存しつつ、主題の外観の特定の側面を変更する必要があるテキストプロンプトと整合させることである。
拡散モデルに基づく手法の進歩にもかかわらず、既存のアプローチは、アイデンティティ保存とテキストプロンプトアライメントのバランスをとるのに苦慮している。
本研究では,この問題について詳細な調査を行い,高いバランスを維持しつつ,効果的なアイデンティティ保護を実現するための重要な知見を明らかにした。
その結果,(1) 対象画像エンコーダの設計はアイデンティティの保存品質に大きな影響を与え,(2) テキストのアライメントとアイデンティティの保存には,テキストと対象のガイダンスの分離が不可欠であることがわかった。
安定拡散モデルの事前訓練されたUNetに基づくエンコーダを用いて、誘導段階を分離し、初期画像レイアウトを反復的に洗練するプロセスに従って、高品質なアイデンティティ転送を保証する。
これらの戦略を通じて、EZIGenは、統一されたモデルと100倍のトレーニングデータを持つ複数の対象駆動ベンチマークで最先端の結果を達成する。
デモページは、https://zichengduan.github.io/pages/EZIGen/index.htmlで公開されている。
関連論文リスト
- Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - IMPRINT: Generative Object Compositing by Learning Identity-Preserving Representation [40.34581973675213]
IMPRINTは、2段階の学習フレームワークでトレーニングされた新しい拡散ベースの生成モデルである。
最初のステージは、オブジェクトエンコーダのコンテキストに依存しない、アイデンティティを保存する事前トレーニングをターゲットにしている。
第2段階では、この表現を利用して、背景に合成されたオブジェクトのシームレスな調和を学ぶ。
論文 参考訳(メタデータ) (2024-03-15T21:37:04Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。
Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。
本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-05T11:02:45Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion
Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。
1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-11T19:59:43Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。