論文の概要: EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance
- arxiv url: http://arxiv.org/abs/2409.08091v3
- Date: Sun, 24 Nov 2024 10:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:22.045195
- Title: EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance
- Title(参考訳): EZIGen: 正確な被写体エンコーディングとデカップリング誘導によるゼロショットパーソナライズ画像生成の強化
- Authors: Zicheng Duan, Yuxuan Ding, Chenhui Gou, Ziqin Zhou, Ethan Smith, Lingqiao Liu,
- Abstract要約: EZIGenは、与えられたテキストプロンプトと被写体画像の両方に一致した画像を作成することを目的としている。
安定拡散モデルのトレーニング済みUNetをベースとした、慎重に製作された主画像エンコーダである。
統一されたモデルと100倍のトレーニングデータを備えた、複数のパーソナライズされた生成ベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 20.430259028981094
- License:
- Abstract: Zero-shot personalized image generation models aim to produce images that align with both a given text prompt and subject image, requiring the model to effectively incorporate both sources of guidance. However, existing methods often struggle to capture fine-grained subject details and frequently prioritize one form of guidance over the other, resulting in suboptimal subject encoding and an imbalance in the generated images. In this study, we uncover key insights into achieving high-quality balances on subject identity preservation and text-following, notably that 1) the design of the subject image encoder critically influences subject identity preservation, and 2) the text and subject guidance should take effect at different denoising stages. Building on these insights, we introduce a new approach, EZIGen, that employs two main components: a carefully crafted subject image encoder based on the pre-trained UNet of the Stable Diffusion model, following a process that balances the two guidances by separating their dominance stage and revisiting certain time steps to bootstrap subject transfer quality. Through these two components, EZIGen achieves state-of-the-art results on multiple personalized generation benchmarks with a unified model and 100 times less training data. Demo Page: zichengduan.github.io/pages/EZIGen/index.html
- Abstract(参考訳): ゼロショットパーソナライズされた画像生成モデルは、与えられたテキストプロンプトと被写体画像の両方に整合した画像を作成することを目的としており、モデルが両方のガイダンスを効果的に組み込む必要がある。
しかし、既存の手法では、細かな被写体の詳細を捉えるのに苦労し、一方のガイダンスを他方よりも優先することがしばしばあり、結果として、最適被写体符号化と生成画像の不均衡が生じる。
本研究では,主観的アイデンティティの保存とテキストフォローにおける高品質バランスの達成に関する重要な知見を明らかにする。
1) 被写体画像エンコーダの設計は、被写体識別の保存に重大な影響を及ぼし、
2) テキストと教科指導は, 異なる認知段階において実施されるべきである。
これらの知見に基づいて、我々は、安定拡散モデルの事前訓練されたUNetに基づく、注意深く構成された主題画像エンコーダであるEZIGenを導入し、支配段階を分離し、2つのガイダンスのバランスを保ちながら、一定の時間ステップで被験者の移動品質をブートストラップするプロセスを採用した。
これら2つのコンポーネントを通じて、EZIGenは、統一されたモデルと100倍のトレーニングデータを持つ複数のパーソナライズされた生成ベンチマークにおいて、最先端の結果を達成する。
Demo Page: zichengduan.github.io/pages/EZIGen/index.html
関連論文リスト
- MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - DreamTuner: Single Image is Enough for Subject-Driven Generation [16.982780785747202]
拡散に基づくモデルは、テキスト・画像生成の優れた機能を示している。
しかし、微調整に基づく既存の手法は、対象学習と事前学習モデルの生成能力の維持のトレードオフをバランスづけることができない。
本研究では,より効果的に被写体駆動画像生成を実現するために,粗い情報から細かな情報に参照情報を注入する新しい手法であるDreamTurnerを提案する。
論文 参考訳(メタデータ) (2023-12-21T09:37:14Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。