論文の概要: Linguistic Binding in Diffusion Models: Enhancing Attribute
Correspondence through Attention Map Alignment
- arxiv url: http://arxiv.org/abs/2306.08877v1
- Date: Thu, 15 Jun 2023 06:21:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:22:36.296266
- Title: Linguistic Binding in Diffusion Models: Enhancing Attribute
Correspondence through Attention Map Alignment
- Title(参考訳): 拡散モデルにおける言語結合:注意マップアライメントによる属性対応の強化
- Authors: Royi Rassin, Eran Hirsch, Daniel Glickman, Shauli Ravfogel, Yoav
Goldberg, Gal Chechik
- Abstract要約: テキスト条件付き画像生成モデルは、エンティティとその視覚的属性間の誤った関連をしばしば生成する。
本稿では、まず、エンティティとその修飾子を識別するプロンプトを構文解析するSynGenを提案する。
本研究では,テキスト・ツー・イメージ生成における文構造の利用が,テキスト・ツー・イメージ生成の忠実性を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 58.87696235364942
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-conditioned image generation models often generate incorrect
associations between entities and their visual attributes. This reflects an
impaired mapping between linguistic binding of entities and modifiers in the
prompt and visual binding of the corresponding elements in the generated image.
As one notable example, a query like ``a pink sunflower and a yellow flamingo''
may incorrectly produce an image of a yellow sunflower and a pink flamingo. To
remedy this issue, we propose SynGen, an approach which first syntactically
analyses the prompt to identify entities and their modifiers, and then uses a
novel loss function that encourages the cross-attention maps to agree with the
linguistic binding reflected by the syntax. Specifically, we encourage large
overlap between attention maps of entities and their modifiers, and small
overlap with other entities and modifier words. The loss is optimized during
inference, without retraining or fine-tuning the model. Human evaluation on
three datasets, including one new and challenging set, demonstrate significant
improvements of SynGen compared with current state of the art methods. This
work highlights how making use of sentence structure during inference can
efficiently and substantially improve the faithfulness of text-to-image
generation.
- Abstract(参考訳): テキスト条件付き画像生成モデルは、エンティティとその視覚的属性間の誤った関連をしばしば生成する。
これは、生成画像中の対応する要素のプロンプトおよび視覚的結合における、エンティティと修飾子の言語的結合の障害マッピングを反映する。
一例として、'a pink sunflower and a yellow flamingo'のようなクエリは、誤って黄色のひまわりとピンクのフラミンゴの画像を生成する可能性がある。
この問題を解決するために、まずエンティティとその修飾子を識別するためのプロンプトを構文解析し、その後、構文に反映される言語結合にクロス・アテンション・マップを推奨する新しい損失関数であるsyngenを提案する。
具体的には、エンティティのアテンションマップとその修飾子間の大きなオーバーラップと、他のエンティティや修飾子ワードとの小さなオーバーラップを推奨する。
損失はモデルの再トレーニングや微調整なしに、推論中に最適化される。
新たな1つの挑戦的セットを含む3つのデータセットに対する人間による評価は、現在の技術手法と比較して、SynGenの大幅な改善を示している。
本研究は,推論中の文構造の利用が,テキスト対画像生成の忠実さを効果的かつ効果的に向上することを示す。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Predicated Diffusion: Predicate Logic-Based Attention Guidance for Text-to-Image Diffusion Models [9.514940899499752]
拡散モデルは高品質で多彩で創造的な画像を生成することに顕著な成果を上げている。
しかし、テキストベースの画像生成に関しては、しばしばテキストに示される意図された意味を捉えることに失敗する。
ユーザの意図を表現する統合フレームワークであるPredicated Diffusionを提案する。
論文 参考訳(メタデータ) (2023-10-03T15:45:50Z) - Dynamic Prompt Learning: Addressing Cross-Attention Leakage for
Text-Based Image Editing [23.00202969969574]
そこで本稿では,テキストプロンプト中の名詞の正しい単語に注意を向けるために,クロスアテンションマップを強制する動的プロンプト学習(DPL)を提案する。
本稿では,Word-Swap, Prompt Refinement, Attention Re-weightingの編集結果の改善について述べる。
論文 参考訳(メタデータ) (2023-09-27T13:55:57Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。