論文の概要: Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models
- arxiv url: http://arxiv.org/abs/2301.13826v1
- Date: Tue, 31 Jan 2023 18:10:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 15:25:05.172837
- Title: Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models
- Title(参考訳): Attend-and-Excite:テキスト・画像拡散モデルにおける注意に基づく意味指導
- Authors: Hila Chefer, Yuval Alaluf, Yael Vinker, Lior Wolf, Daniel Cohen-Or
- Abstract要約: 最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
- 参考スコア(独自算出の注目度): 103.61066310897928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image generative models have demonstrated an unparalleled
ability to generate diverse and creative imagery guided by a target text
prompt. While revolutionary, current state-of-the-art diffusion models may
still fail in generating images that fully convey the semantics in the given
text prompt. We analyze the publicly available Stable Diffusion model and
assess the existence of catastrophic neglect, where the model fails to generate
one or more of the subjects from the input prompt. Moreover, we find that in
some cases the model also fails to correctly bind attributes (e.g., colors) to
their corresponding subjects. To help mitigate these failure cases, we
introduce the concept of Generative Semantic Nursing (GSN), where we seek to
intervene in the generative process on the fly during inference time to improve
the faithfulness of the generated images. Using an attention-based formulation
of GSN, dubbed Attend-and-Excite, we guide the model to refine the
cross-attention units to attend to all subject tokens in the text prompt and
strengthen - or excite - their activations, encouraging the model to generate
all subjects described in the text prompt. We compare our approach to
alternative approaches and demonstrate that it conveys the desired concepts
more faithfully across a range of text prompts.
- Abstract(参考訳): 最近のテキストから画像への生成モデルは、ターゲットのテキストプロンプトによって誘導される多様で創造的な画像を生成する非並列的な能力を示している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では,公開可能な安定拡散モデルを分析し,モデルが入力プロンプトから1つ以上の被験者を生成できないような破滅的無視の存在を評価する。
さらに、いくつかのケースでは、モデルが属性(例えば色)を対応する主題に正しく結合できないことも分かりました。
これらの障害を緩和するために,我々は,生成画像の忠実性を改善するために,生成過程に短時間で介入することを目的とした生成意味看護(gsn)の概念を導入する。
gsnの注意に基づく定式化(convention-and-excite)を用いることで、テキストプロンプト内のすべての主題トークンに対応するクロスアテンションユニットを洗練し、そのアクティベーションを強化し、モデルにテキストプロンプトで記述されたすべての主題を生成するように促す。
我々のアプローチを代替アプローチと比較し、様々なテキストプロンプトを通して、望ましい概念をより忠実に伝えることを実証する。
関連論文リスト
- Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [80.82832715884597]
生成拡散モデルにより生成された画像からテキストプロンプトを予測する新しいタスクを導入する。
本稿では,複数ラベルの語彙分類を目的とし,協調的即時回帰と複数ラベルの語彙分類からなる新しい学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Text-to-image Diffusion Models in Generative AI: A Survey [75.32882187215394]
本稿では,テキストコンディショニング画像合成における最先端手法,すなわちテキスト・トゥ・イメージについて概観する。
我々はテキスト・ツー・イメージ・ジェネレーションを超える応用について論じる:テキスト・ガイド・クリエイティブ・ジェネレーションとテキスト・ガイド・イメージ・編集。
論文 参考訳(メタデータ) (2023-03-14T13:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。