論文の概要: DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization
- arxiv url: http://arxiv.org/abs/2402.09812v2
- Date: Tue, 23 Apr 2024 09:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:16:06.688885
- Title: DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization
- Title(参考訳): DreamMatcher:Semantically-Consistent Text-to- Image Personalizationのための自己認識の出現マッチング
- Authors: Jisu Nam, Heesu Kim, DongJae Lee, Siyoon Jin, Seungryong Kim, Seunggyu Chang,
- Abstract要約: 本稿では,T2Iパーソナライゼーションをセマンティックマッチングとして再構成するDreamMatcherという新しいプラグイン手法を提案する。
具体的には、DreamMatcherはターゲットの値をセマンティックマッチングで整列された参照値に置き換えるが、構造パスは変わらない。
また、ターゲットプロンプトによって導入された無関係領域からパーソナライズされた概念を分離するための意味一貫性マスキング戦略を導入する。
- 参考スコア(独自算出の注目度): 31.960807999301196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of text-to-image (T2I) personalization is to customize a diffusion model to a user-provided reference concept, generating diverse images of the concept aligned with the target prompts. Conventional methods representing the reference concepts using unique text embeddings often fail to accurately mimic the appearance of the reference. To address this, one solution may be explicitly conditioning the reference images into the target denoising process, known as key-value replacement. However, prior works are constrained to local editing since they disrupt the structure path of the pre-trained T2I model. To overcome this, we propose a novel plug-in method, called DreamMatcher, which reformulates T2I personalization as semantic matching. Specifically, DreamMatcher replaces the target values with reference values aligned by semantic matching, while leaving the structure path unchanged to preserve the versatile capability of pre-trained T2I models for generating diverse structures. We also introduce a semantic-consistent masking strategy to isolate the personalized concept from irrelevant regions introduced by the target prompts. Compatible with existing T2I models, DreamMatcher shows significant improvements in complex scenarios. Intensive analyses demonstrate the effectiveness of our approach.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)のパーソナライズの目的は、ユーザが提供する参照概念に拡散モデルをカスタマイズし、ターゲットのプロンプトに沿った概念の多様なイメージを生成することである。
ユニークなテキスト埋め込みを使用して参照概念を表現する従来の方法は、参照の外観を正確に模倣することができないことが多い。
これを解決するために、あるソリューションは、キー-値置換と呼ばれるターゲットのデノナイジングプロセスに参照イメージを明示的に条件付けする。
しかし、事前訓練されたT2Iモデルの構造経路を乱すため、事前の作業は局所的な編集に制約される。
そこで本研究では,T2Iパーソナライゼーションをセマンティックマッチングとして再構成するDreamMatcherという新しいプラグイン手法を提案する。
具体的には、DreamMatcherは、ターゲットの値をセマンティックマッチングで整列された参照値に置き換えると同時に、構造パスをそのままにして、様々な構造を生成するための事前訓練されたT2Iモデルの汎用性を維持する。
また、ターゲットプロンプトによって導入された無関係領域からパーソナライズされた概念を分離するための意味一貫性マスキング戦略を導入する。
既存のT2Iモデルと互換性があるが、DreamMatcherは複雑なシナリオで大幅に改善されている。
集中分析は我々のアプローチの有効性を実証する。
関連論文リスト
- Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis [98.21700880115938]
Text-to-image (T2I) モデルは、しばしば入力プロンプトに意味的に関連付けられたオブジェクトや属性を正確に結合するのに失敗する。
Token Merging(ToMe)と呼ばれる新しい手法を導入し、関連するトークンを1つの複合トークンに集約することでセマンティックバインディングを強化する。
論文 参考訳(メタデータ) (2024-11-11T17:05:15Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。