論文の概要: EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance
- arxiv url: http://arxiv.org/abs/2409.08091v4
- Date: Thu, 01 May 2025 05:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.004291
- Title: EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance
- Title(参考訳): EZIGen: 正確な被写体エンコーディングとデカップリング誘導によるゼロショットパーソナライズ画像生成の強化
- Authors: Zicheng Duan, Yuxuan Ding, Chenhui Gou, Ziqin Zhou, Ethan Smith, Lingqiao Liu,
- Abstract要約: ゼロショットパーソナライズされた画像生成モデルは、与えられたテキストプロンプトと被写体画像の両方に一致した画像を作成することを目的としている。
既存の手法では、細かな被写体の詳細を捉えるのに苦労することが多く、一方のガイダンスを他方よりも優先することが多い。
EZIGenは、固定トレーニング済みのDiffusion UNet自体を主題エンコーダとして活用する。
- 参考スコア(独自算出の注目度): 20.430259028981094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot personalized image generation models aim to produce images that align with both a given text prompt and subject image, requiring the model to incorporate both sources of guidance. Existing methods often struggle to capture fine-grained subject details and frequently prioritize one form of guidance over the other, resulting in suboptimal subject encoding and imbalanced generation. In this study, we uncover key insights into overcoming such drawbacks, notably that 1) the choice of the subject image encoder critically influences subject identity preservation and training efficiency, and 2) the text and subject guidance should take effect at different denoising stages. Building on these insights, we introduce a new approach, EZIGen, that employs two main components: leveraging a fixed pre-trained Diffusion UNet itself as subject encoder, following a process that balances the two guidances by separating their dominance stage and revisiting certain time steps to bootstrap subject transfer quality. Through these two components, EZIGen, initially built upon SD2.1-base, achieved state-of-the-art performances on multiple personalized generation benchmarks with a unified model, while using 100 times less training data. Moreover, by further migrating our design to SDXL, EZIGen is proven to be a versatile model-agnostic solution for personalized generation. Demo Page: zichengduan.github.io/pages/EZIGen/index.html
- Abstract(参考訳): ゼロショットパーソナライズされた画像生成モデルは、与えられたテキストプロンプトと被写体画像の両方に整合した画像を作成することを目的としており、モデルにはガイダンスの両方を組み込む必要がある。
既存の手法では、細かな被写体の詳細を捉えるのに苦労し、一方のガイダンスを他方よりも優先することがしばしばあり、その結果、最適被写体エンコーディングと不均衡な生成が生じる。
本研究では,このような欠点を克服するための重要な知見を明らかにする。
1)被写体画像エンコーダの選択は、被写体識別の保存及び訓練効率に重大な影響を及ぼし、
2) テキストと教科指導は, 異なる認知段階において実施されるべきである。
これらの知見に基づいて、固定トレーニング済み拡散UNet自体をサブジェクトエンコーダとして活用するEZIGenという新しいアプローチを導入する。
これら2つのコンポーネントを通じて、当初SD2.1ベース上に構築されていたEZIGenは、100倍のトレーニングデータを使用しながら、統一されたモデルで複数のパーソナライズされた世代ベンチマークで最先端のパフォーマンスを達成した。
さらに、設計をSDXLに移行することで、EZIGenはパーソナライズされた生成のための汎用的なモデルに依存しないソリューションであることが証明された。
Demo Page: zichengduan.github.io/pages/EZIGen/index.html
関連論文リスト
- DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。
DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。
本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文 参考訳(メタデータ) (2025-04-24T08:10:10Z) - Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。
提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2025-04-23T06:48:31Z) - Single Image Iterative Subject-driven Generation and Editing [40.285860652338506]
SISOは、トレーニングなしで単一の画像から画像の生成と編集をパーソナライズするための、トレーニング不要なアプローチである。
SISOは、与えられた被写体画像との類似性の喪失に基づいて、画像を反復的に生成し、モデルを最適化する。
画像品質, 被写体忠実度, 背景保存における既存手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2025-03-20T10:45:04Z) - UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。
我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文 参考訳(メタデータ) (2025-03-16T21:11:25Z) - IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。
我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。
本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文 参考訳(メタデータ) (2024-12-23T02:18:54Z) - Personalized Representation from Personalized Generation [36.848215621708235]
我々は、パーソナライズされた合成データを用いてパーソナライズされた表現を学習するという課題を定式化する。
提案手法は,多様な下流タスクに対するパーソナライズされた表現学習を改善する。
論文 参考訳(メタデータ) (2024-12-20T18:59:03Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - DreamTuner: Single Image is Enough for Subject-Driven Generation [16.982780785747202]
拡散に基づくモデルは、テキスト・画像生成の優れた機能を示している。
しかし、微調整に基づく既存の手法は、対象学習と事前学習モデルの生成能力の維持のトレードオフをバランスづけることができない。
本研究では,より効果的に被写体駆動画像生成を実現するために,粗い情報から細かな情報に参照情報を注入する新しい手法であるDreamTurnerを提案する。
論文 参考訳(メタデータ) (2023-12-21T09:37:14Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。