論文の概要: AlignIT: Enhancing Prompt Alignment in Customization of Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2406.18893v1
- Date: Thu, 27 Jun 2024 05:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:17:37.514468
- Title: AlignIT: Enhancing Prompt Alignment in Customization of Text-to-Image Models
- Title(参考訳): AlignIT: テキスト-画像モデルのカスタマイズにおけるプロンプトアライメントの強化
- Authors: Aishwarya Agarwal, Srikrishna Karanam, Balaji Vasan Srinivasan,
- Abstract要約: ユーザによる参照画像を用いたテキスト・画像拡散モデルのカスタマイズの問題点を考察する。
新しいプロンプトが与えられた場合、既存のメソッドは参照イメージからキーコンセプトをキャプチャできるが、生成されたイメージとプロンプトを一致させることができない。
- 参考スコア(独自算出の注目度): 16.634138745034733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of customizing text-to-image diffusion models with user-supplied reference images. Given new prompts, the existing methods can capture the key concept from the reference images but fail to align the generated image with the prompt. In this work, we seek to address this key issue by proposing new methods that can easily be used in conjunction with existing customization methods that optimize the embeddings/weights at various intermediate stages of the text encoding process. The first contribution of this paper is a dissection of the various stages of the text encoding process leading up to the conditioning vector for text-to-image models. We take a holistic view of existing customization methods and notice that key and value outputs from this process differs substantially from their corresponding baseline (non-customized) models (e.g., baseline stable diffusion). While this difference does not impact the concept being customized, it leads to other parts of the generated image not being aligned with the prompt (see first row in Fig 1). Further, we also observe that these keys and values allow independent control various aspects of the final generation, enabling semantic manipulation of the output. Taken together, the features spanning these keys and values, serve as the basis for our next contribution where we fix the aforementioned issues with existing methods. We propose a new post-processing algorithm, \textbf{AlignIT}, that infuses the keys and values for the concept of interest while ensuring the keys and values for all other tokens in the input prompt are unchanged. Our proposed method can be plugged in directly to existing customization methods, leading to a substantial performance improvement in the alignment of the final result with the input prompt while retaining the customization quality.
- Abstract(参考訳): ユーザによる参照画像を用いたテキスト・画像拡散モデルのカスタマイズの問題点を考察する。
新しいプロンプトが与えられた場合、既存のメソッドは参照イメージからキーコンセプトをキャプチャできるが、生成されたイメージとプロンプトを一致させることができない。
そこで本研究では,テキストエンコーディングプロセスの中間段階における埋め込み/重みを最適化する既存のカスタマイズ手法と組み合わせて使用可能な新しい手法を提案する。
本論文の最初のコントリビューションは,テキスト・ツー・イメージ・モデルにおける条件付きベクトルにつながる,テキストエンコーディングプロセスの様々な段階の分解である。
既存のカスタマイズ手法を概観し、このプロセスのキーと値の出力が対応するベースラインモデル(例えば、ベースラインの安定拡散)と大きく異なることに気付く。
この違いは、カスタマイズされるコンセプトには影響しないが、生成された画像の他の部分がプロンプトに一致していない(図1の1行目を参照)。
さらに、これらのキーと値がファイナルジェネレーションの様々な側面を独立に制御し、出力のセマンティックな操作を可能にすることも観察した。
まとめると、これらのキーと値にまたがる機能は、前述の既存のメソッドで問題を修正する次のコントリビューションの基盤として役立ちます。
入力プロンプト内の他の全てのトークンのキーと値が変化しないことを保証しながら、興味概念のキーと値を注入する新しい後処理アルゴリズムである \textbf{AlignIT} を提案する。
提案手法は,既存のカスタマイズ手法に直接接続することができ,カスタマイズ品質を維持しつつ,入力プロンプトと最終結果の整合性を大幅に向上させることができる。
関連論文リスト
- Concept Weaver: Enabling Multi-Concept Fusion in Text-to-Image Models [85.14042557052352]
本研究では,カスタマイズされたテキストと画像の拡散モデルを推論時に作成する方法であるConcept Weaverを紹介する。
概念ウィーバーは、他のアプローチと比較して、アイデンティティの忠実度が高い複数のカスタム概念を生成可能であることを示す。
論文 参考訳(メタデータ) (2024-04-05T06:41:27Z) - Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。
提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。
提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-19T11:48:35Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image
Personalization [56.892032386104006]
CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。
ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
論文 参考訳(メタデータ) (2023-11-24T17:55:10Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Continuous Layout Editing of Single Images with Diffusion Models [24.581184791106562]
本稿では,その視覚的特性を保ちながら,単一の画像のレイアウト編集を行うための最初のフレームワークを提案する。
私たちのアプローチは2つの重要なモジュールを通じて実現されます。
私たちのコードは受理後、無料で公開されます。
論文 参考訳(メタデータ) (2023-06-22T17:51:05Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文 参考訳(メタデータ) (2023-02-27T14:49:53Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。