論文の概要: Text Embedding is Not All You Need: Attention Control for Text-to-Image Semantic Alignment with Text Self-Attention Maps
- arxiv url: http://arxiv.org/abs/2411.15236v1
- Date: Thu, 21 Nov 2024 23:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:04.765503
- Title: Text Embedding is Not All You Need: Attention Control for Text-to-Image Semantic Alignment with Text Self-Attention Maps
- Title(参考訳): テキスト埋め込みがすべてではない:テキスト自己認識マップによるテキスト間セマンティックアライメントの注意制御
- Authors: Jeeyung Kim, Erfan Esmaeili, Qiang Qiu,
- Abstract要約: テキスト・ツー・イメージ拡散モデルでは、各テキストトークンの横断アテンションマップは、出席する特定の画像領域を示す。
本研究は,既存のテキスト・ツー・イメージ・モデルにおいて,この問題を調査する上で重要な知見である。
そこで本研究では,テキストアテンションマップからテスト時間最適化によるクロスアテンションモジュールへの構文関係を直接転送する手法を提案する。
- 参考スコア(独自算出の注目度): 18.762539151342406
- License:
- Abstract: In text-to-image diffusion models, the cross-attention map of each text token indicates the specific image regions attended. Comparing these maps of syntactically related tokens provides insights into how well the generated image reflects the text prompt. For example, in the prompt, "a black car and a white clock", the cross-attention maps for "black" and "car" should focus on overlapping regions to depict a black car, while "car" and "clock" should not. Incorrect overlapping in the maps generally produces generation flaws such as missing objects and incorrect attribute binding. Our study makes the key observations investigating this issue in the existing text-to-image models:(1) the similarity in text embeddings between different tokens -- used as conditioning inputs -- can cause their cross-attention maps to focus on the same image regions; and (2) text embeddings often fail to faithfully capture syntactic relations already within text attention maps. As a result, such syntactic relationships can be overlooked in cross-attention module, leading to inaccurate image generation. To address this, we propose a method that directly transfers syntactic relations from the text attention maps to the cross-attention module via a test-time optimization. Our approach leverages this inherent yet unexploited information within text attention maps to enhance image-text semantic alignment across diverse prompts, without relying on external guidance.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルでは、各テキストトークンの横断アテンションマップは、出席する特定の画像領域を示す。
構文的に関連付けられたトークンのこれらのマップを比較すると、生成された画像がテキストプロンプトをいかにうまく反映するかについての洞察が得られる。
例えば、「黒い車と白い時計」のプロンプトでは、「黒い車」と「車」のクロスアテンションマップは「黒い車」と「時計」は「黒い車」を表すために重複する領域に焦点を当てるべきであり、一方、「車」と「時計」はそうではない。
マップにおける間違った重複は、一般的に、欠落したオブジェクトや誤った属性バインディングのような生成欠陥を発生させる。
本研究は,既存のテキスト・ツー・イメージ・モデルにおいて,この問題を考察する上で重要である。(1) 異なるトークン間のテキスト埋め込みの類似性 - 条件付け入力として使用される -- は,それらの相互注意マップを同じ画像領域に集中させる可能性があり,(2) テキスト埋め込みは,テキストアテンションマップ内にすでに存在する構文関係を忠実に把握できないことが多い。
その結果、このような構文的関係はクロスアテンションモジュールで見過ごされ、不正確な画像生成につながる。
そこで本研究では,テキストアテンションマップからの構文関係を直接,テスト時間最適化によるクロスアテンションモジュールに転送する手法を提案する。
提案手法では,テキストアテンションマップ内のこの固有情報を活用することで,外部ガイダンスに頼ることなく,多様なプロンプト間の画像テキストセマンティックアライメントを向上する。
関連論文リスト
- LocInv: Localization-aware Inversion for Text-Guided Image Editing [17.611103794346857]
テキスト誘導画像編集研究は、ユーザーがテキストプロンプトを変更して生成した画像を操作できるようにすることを目的としている。
既存の画像編集技術は、意図した対象領域を超えて意図しない領域を編集する傾向がある。
そこで我々は, セグメンテーションマップやバウンディングボックスを付加的なローカライゼーションとして活用して, クロスアテンションマップを改良するローカライゼーション対応インバージョン(LocInv)を提案する。
論文 参考訳(メタデータ) (2024-05-02T17:27:04Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Masked-Attention Diffusion Guidance for Spatially Controlling
Text-to-Image Generation [1.0152838128195465]
拡散モデルのさらなる訓練を伴わずにテキスト・画像生成を空間的に制御する手法を提案する。
我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。
論文 参考訳(メタデータ) (2023-08-11T09:15:22Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Linguistic Binding in Diffusion Models: Enhancing Attribute
Correspondence through Attention Map Alignment [87.1732801732059]
テキスト条件付き画像生成モデルは、エンティティとその視覚的属性間の誤った関連をしばしば生成する。
本稿では、まず、エンティティとその修飾子を識別するプロンプトを構文解析するSynGenを提案する。
新たな1つの挑戦的セットを含む3つのデータセットに対する人間による評価は、現在の技術手法と比較して、SynGenの大幅な改善を示している。
論文 参考訳(メタデータ) (2023-06-15T06:21:44Z) - Compositional Text-to-Image Synthesis with Attention Map Control of
Diffusion Models [8.250234707160793]
近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを条件とした高品質な画像の生成に優れた性能を示す。
コンポジション機能に制限があるため、生成したイメージとプロンプトを意味的にアライメントすることができない。
本稿では,これらの問題に対処するために,予測オブジェクトボックスに基づく新しいアテンションマスク制御手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T10:49:22Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。