Fugu-MT 論文翻訳(概要): EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance

論文の概要: EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance

arxiv url: http://arxiv.org/abs/2409.08091v3
Date: Sun, 24 Nov 2024 10:47:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.960471
Title: EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance
Title（参考訳）: EZIGen: 正確な被写体エンコーディングとデカップリング誘導によるゼロショットパーソナライズ画像生成の強化
Authors: Zicheng Duan, Yuxuan Ding, Chenhui Gou, Ziqin Zhou, Ethan Smith, Lingqiao Liu,
Abstract要約: EZIGenは、与えられたテキストプロンプトと被写体画像の両方に一致した画像を作成することを目的としている。安定拡散モデルのトレーニング済みUNetをベースとした、慎重に製作された主画像エンコーダである。統一されたモデルと100倍のトレーニングデータを備えた、複数のパーソナライズされた生成ベンチマークで最先端の結果を得る。
参考スコア（独自算出の注目度）: 20.430259028981094
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zero-shot personalized image generation models aim to produce images that align with both a given text prompt and subject image, requiring the model to effectively incorporate both sources of guidance. However, existing methods often struggle to capture fine-grained subject details and frequently prioritize one form of guidance over the other, resulting in suboptimal subject encoding and an imbalance in the generated images. In this study, we uncover key insights into achieving high-quality balances on subject identity preservation and text-following, notably that 1) the design of the subject image encoder critically influences subject identity preservation, and 2) the text and subject guidance should take effect at different denoising stages. Building on these insights, we introduce a new approach, EZIGen, that employs two main components: a carefully crafted subject image encoder based on the pre-trained UNet of the Stable Diffusion model, following a process that balances the two guidances by separating their dominance stage and revisiting certain time steps to bootstrap subject transfer quality. Through these two components, EZIGen achieves state-of-the-art results on multiple personalized generation benchmarks with a unified model and 100 times less training data. Demo Page: zichengduan.github.io/pages/EZIGen/index.html
Abstract（参考訳）: ゼロショットパーソナライズされた画像生成モデルは、与えられたテキストプロンプトと被写体画像の両方に整合した画像を作成することを目的としており、モデルが両方のガイダンスを効果的に組み込む必要がある。しかし、既存の手法では、細かな被写体の詳細を捉えるのに苦労し、一方のガイダンスを他方よりも優先することがしばしばあり、結果として、最適被写体符号化と生成画像の不均衡が生じる。本研究では,主観的アイデンティティの保存とテキストフォローにおける高品質バランスの達成に関する重要な知見を明らかにする。 1) 被写体画像エンコーダの設計は、被写体識別の保存に重大な影響を及ぼし、 2) テキストと教科指導は, 異なる認知段階において実施されるべきである。これらの知見に基づいて、我々は、安定拡散モデルの事前訓練されたUNetに基づく、注意深く構成された主題画像エンコーダであるEZIGenを導入し、支配段階を分離し、2つのガイダンスのバランスを保ちながら、一定の時間ステップで被験者の移動品質をブートストラップするプロセスを採用した。これら2つのコンポーネントを通じて、EZIGenは、統一されたモデルと100倍のトレーニングデータを持つ複数のパーソナライズされた生成ベンチマークにおいて、最先端の結果を達成する。 Demo Page: zichengduan.github.io/pages/EZIGen/index.html

関連論文リスト

AlignGen: Boosting Personalized Image Generation with Cross-Modality Prior Alignment [74.47138661595584]
我々は、パーソナライズされた画像生成のためのクロスモーダル優先アライメント機構であるAlignGenを提案する。 AlignGenは、既存のゼロショットメソッドよりも優れており、一般的なテスト時間最適化アプローチを超えています。
論文参考訳（メタデータ） (2025-05-28T02:57:55Z)
DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。 DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文参考訳（メタデータ） (2025-04-24T08:10:10Z)
Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文参考訳（メタデータ） (2025-04-23T06:48:31Z)
Single Image Iterative Subject-driven Generation and Editing [40.285860652338506]
SISOは、トレーニングなしで単一の画像から画像の生成と編集をパーソナライズするための、トレーニング不要なアプローチである。 SISOは、与えられた被写体画像との類似性の喪失に基づいて、画像を反復的に生成し、モデルを最適化する。画像品質, 被写体忠実度, 背景保存における既存手法の大幅な改善を示す。
論文参考訳（メタデータ） (2025-03-20T10:45:04Z)
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文参考訳（メタデータ） (2025-03-16T21:11:25Z)
IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文参考訳（メタデータ） (2025-01-28T18:59:03Z)
Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文参考訳（メタデータ） (2024-12-23T02:18:54Z)
Personalized Representation from Personalized Generation [36.848215621708235]
我々は、パーソナライズされた合成データを用いてパーソナライズされた表現を学習するという課題を定式化する。提案手法は,多様な下流タスクに対するパーソナライズされた表現学習を改善する。
論文参考訳（メタデータ） (2024-12-20T18:59:03Z)
MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文参考訳（メタデータ） (2024-06-11T12:32:53Z)
Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文参考訳（メタデータ） (2024-04-05T17:45:22Z)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文参考訳（メタデータ） (2024-01-30T05:56:12Z)
DreamTuner: Single Image is Enough for Subject-Driven Generation [16.982780785747202]
拡散に基づくモデルは、テキスト・画像生成の優れた機能を示している。しかし、微調整に基づく既存の手法は、対象学習と事前学習モデルの生成能力の維持のトレードオフをバランスづけることができない。本研究では,より効果的に被写体駆動画像生成を実現するために,粗い情報から細かな情報に参照情報を注入する新しい手法であるDreamTurnerを提案する。
論文参考訳（メタデータ） (2023-12-21T09:37:14Z)
Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文参考訳（メタデータ） (2023-11-06T18:33:24Z)
Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文参考訳（メタデータ） (2023-06-13T07:43:10Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)
Towards Unsupervised Deep Image Enhancement with Generative Adversarial Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T03:22:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。