論文の概要: Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models!
- arxiv url: http://arxiv.org/abs/2410.20972v1
- Date: Mon, 28 Oct 2024 12:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:20.974450
- Title: Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models!
- Title(参考訳): テキストと画像の拡散モデルにおけるエンティティミス問題に対する注意オーバーラップの責任
- Authors: Arash Marioriyad, Mohammadali Banayeeanzade, Reza Abbasi, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah,
- Abstract要約: 本研究では, 実体欠落問題の原因となる3つの要因について検討し, クロスアテンションダイナミクスに着目した。
実体間の注意マップの重複を減らすことは、実体の欠落率を効果的に最小化することを発見した。
- 参考スコア(独自算出の注目度): 3.355491272942994
- License:
- Abstract: Text-to-image diffusion models, such as Stable Diffusion and DALL-E, are capable of generating high-quality, diverse, and realistic images from textual prompts. However, they sometimes struggle to accurately depict specific entities described in prompts, a limitation known as the entity missing problem in compositional generation. While prior studies suggested that adjusting cross-attention maps during the denoising process could alleviate this problem, they did not systematically investigate which objective functions could best address it. This study examines three potential causes of the entity-missing problem, focusing on cross-attention dynamics: (1) insufficient attention intensity for certain entities, (2) overly broad attention spread, and (3) excessive overlap between attention maps of different entities. We found that reducing overlap in attention maps between entities can effectively minimize the rate of entity missing. Specifically, we hypothesize that tokens related to specific entities compete for attention on certain image regions during the denoising process, which can lead to divided attention across tokens and prevent accurate representation of each entity. To address this issue, we introduced four loss functions, Intersection over Union (IoU), center-of-mass (CoM) distance, Kullback-Leibler (KL) divergence, and clustering compactness (CC) to regulate attention overlap during denoising steps without the need for retraining. Experimental results across a wide variety of benchmarks reveal that these proposed training-free methods significantly improve compositional accuracy, outperforming previous approaches in visual question answering (VQA), captioning scores, CLIP similarity, and human evaluations. Notably, these methods improved human evaluation scores by 9% over the best baseline, demonstrating substantial improvements in compositional alignment.
- Abstract(参考訳): 安定拡散(Stable Diffusion)やDALL-E(DALL-E)のようなテキスト間拡散モデルは、テキストプロンプトから高品質で多様なリアルな画像を生成することができる。
しかし、それらはしばしば、合成世代における実体欠落問題として知られる、プロンプトで記述された特定の実体を正確に描写するのに苦労する。
先行研究では、認知過程における横断アテンションマップの調整がこの問題を緩和する可能性を示唆していたが、どの目的関数が最適に対処できるかを体系的に調べることはできなかった。
本研究は,(1)特定のエンティティに対する注意力の不足,(2)過度に広範に注意を広げる,(3)異なるエンティティの注目マップ間の過剰な重複などに着目し,実体欠落問題の潜在的な3つの原因について検討する。
実体間の注意マップの重複を減らすことは、実体の欠落率を効果的に最小化することを発見した。
具体的には、特定エンティティに関連するトークンが、特定イメージ領域に注意を払っていることを仮定し、トークン間での注意を分割し、各エンティティの正確な表現を防止する。
この問題に対処するために,我々は4つの損失関数,IoU(Intersection over Union),Central-of-mass(CoM)距離,Kullback-Leibler(KL)発散,クラスタリングコンパクト性(CC)を導入した。
様々なベンチマークによる実験結果から,提案手法は,視覚的質問応答(VQA),キャプションスコア,CLIP類似度,人体評価において,従来の手法よりも優れ,構成精度を著しく向上させることがわかった。
特に,これらの手法により,最高の基準値よりも評価スコアが9%向上し,構成的アライメントが著しく向上した。
関連論文リスト
- Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Denoising Diffusion Semantic Segmentation with Mask Prior Modeling [61.73352242029671]
本稿では,従来の識別的アプローチのセマンティックセグメンテーション品質を,デノナイズ拡散生成モデルでモデル化したマスクを用いて改善することを提案する。
市販セグメンタを用いた先行モデルの評価を行い,ADE20KとCityscapesの実験結果から,本手法が競争力のある定量的性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:47:01Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Dual Cross-Attention Learning for Fine-Grained Visual Categorization and
Object Re-Identification [19.957957963417414]
本稿では,自己意図学習と協調する2つのクロスアテンション学習(DCAL)アルゴリズムを提案する。
まず,グローバル・ローカル・クロスアテンション(GLCA)を提案する。
第2に、画像ペア間の相互作用を確立するために、ペアワイズ・クロスアテンション(PWCA)を提案する。
論文 参考訳(メタデータ) (2022-05-04T16:14:26Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z) - COLA-Net: Collaborative Attention Network for Image Restoration [27.965025010397603]
画像復元のための新しいコラボレーティブアテンションネットワーク(COLA-Net)を提案する。
提案したCOLA-Netは,ピーク信号対雑音比と視覚知覚の両方において最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2021-03-10T09:33:17Z) - A Weakly-Supervised Semantic Segmentation Approach based on the Centroid
Loss: Application to Quality Control and Inspection [6.101839518775968]
本稿では,新しい損失関数を用いた弱教師付きセマンティックセマンティックセマンティクス手法の提案と評価を行う。
アプローチのパフォーマンスは,2つの業界関連ケーススタディのデータセットに対して評価される。
論文 参考訳(メタデータ) (2020-10-26T09:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。