論文の概要: EZIGen: Enhancing zero-shot subject-driven image generation with precise subject encoding and decoupled guidance
- arxiv url: http://arxiv.org/abs/2409.08091v2
- Date: Tue, 1 Oct 2024 17:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 21:31:36.153502
- Title: EZIGen: Enhancing zero-shot subject-driven image generation with precise subject encoding and decoupled guidance
- Title(参考訳): EZIGen: 正確な被写体エンコーディングとデカップリング誘導によるゼロショット被写体駆動画像生成の強化
- Authors: Zicheng Duan, Yuxuan Ding, Chenhui Gou, Ziqin Zhou, Ethan Smith, Lingqiao Liu,
- Abstract要約: ゼロショットの被写体駆動画像生成は、所定のサンプル画像から被写体を組み込んだ画像を作成することを目的としている。
課題は、被験者の身元を保存しつつ、主題の外観の特定の側面を変更する必要があるテキストプロンプトと整合させることである。
1) 画像エンコーダの設計はアイデンティティの保存品質に大きな影響を与え,(2) テキストのアライメントとアイデンティティの保存の両方において,テキストと主題のガイダンスの分離が不可欠である。
- 参考スコア(独自算出の注目度): 20.430259028981094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot subject-driven image generation aims to produce images that incorporate a subject from a given example image. The challenge lies in preserving the subject's identity while aligning with the text prompt which often requires modifying certain aspects of the subject's appearance. Despite advancements in diffusion model based methods, existing approaches still struggle to balance identity preservation with text prompt alignment. In this study, we conducted an in-depth investigation into this issue and uncovered key insights for achieving effective identity preservation while maintaining a strong balance. Our key findings include: (1) the design of the subject image encoder significantly impacts identity preservation quality, and (2) separating text and subject guidance is crucial for both text alignment and identity preservation. Building on these insights, we introduce a new approach called EZIGen, which employs two main strategies: a carefully crafted subject image Encoder based on the pretrained UNet of the Stable Diffusion model to ensure high-quality identity transfer, following a process that decouples the guidance stages and iteratively refines the initial image layout. Through these strategies, EZIGen achieves state-of-the-art results on multiple subject-driven benchmarks with a unified model and 100 times less training data. The demo page is available at: https://zichengduan.github.io/pages/EZIGen/index.html.
- Abstract(参考訳): ゼロショットの被写体駆動画像生成は、所定のサンプル画像から被写体を組み込んだ画像を作成することを目的としている。
課題は、被験者の身元を保存しつつ、主題の外観の特定の側面を変更する必要があるテキストプロンプトと整合させることである。
拡散モデルに基づく手法の進歩にもかかわらず、既存のアプローチは、アイデンティティ保存とテキストプロンプトアライメントのバランスをとるのに苦慮している。
本研究では,この問題について詳細な調査を行い,高いバランスを維持しつつ,効果的なアイデンティティ保護を実現するための重要な知見を明らかにした。
その結果,(1) 対象画像エンコーダの設計はアイデンティティの保存品質に大きな影響を与え,(2) テキストのアライメントとアイデンティティの保存には,テキストと対象のガイダンスの分離が不可欠であることがわかった。
安定拡散モデルの事前訓練されたUNetに基づくエンコーダを用いて、誘導段階を分離し、初期画像レイアウトを反復的に洗練するプロセスに従って、高品質なアイデンティティ転送を保証する。
これらの戦略を通じて、EZIGenは、統一されたモデルと100倍のトレーニングデータを持つ複数の対象駆動ベンチマークで最先端の結果を達成する。
デモページは、https://zichengduan.github.io/pages/EZIGen/index.htmlで公開されている。
関連論文リスト
- IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。
我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。
本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文 参考訳(メタデータ) (2024-12-23T02:18:54Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - DreamTuner: Single Image is Enough for Subject-Driven Generation [16.982780785747202]
拡散に基づくモデルは、テキスト・画像生成の優れた機能を示している。
しかし、微調整に基づく既存の手法は、対象学習と事前学習モデルの生成能力の維持のトレードオフをバランスづけることができない。
本研究では,より効果的に被写体駆動画像生成を実現するために,粗い情報から細かな情報に参照情報を注入する新しい手法であるDreamTurnerを提案する。
論文 参考訳(メタデータ) (2023-12-21T09:37:14Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。