Fugu-MT 論文翻訳(概要): Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models

論文の概要: Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models

arxiv url: http://arxiv.org/abs/2305.13921v1
Date: Tue, 23 May 2023 10:49:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 16:59:02.959042
Title: Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models
Title（参考訳）: 拡散モデルの注意マップ制御による合成テキスト・画像合成
Authors: Ruichen Wang, Zekang Chen, Chen Chen, Jian Ma, Haonan Lu, Xiaodong Lin
Abstract要約: 近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを条件とした高品質な画像の生成に優れた性能を示す。これらのモデルは、構成能力に制限があるため、生成した画像とテキスト記述とを意味的に整合させることができない。本稿では,これら3つの問題に対処するために,予測オブジェクトボックスに基づく新しいアテンションマスク制御戦略を提案する。
参考スコア（独自算出の注目度）: 7.248167944149494
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent text-to-image (T2I) diffusion models show outstanding performance in generating high-quality images conditioned on textual prompts. However, these models fail to semantically align the generated images with the text descriptions due to their limited compositional capabilities, leading to attribute leakage, entity leakage, and missing entities. In this paper, we propose a novel attention mask control strategy based on predicted object boxes to address these three issues. In particular, we first train a BoxNet to predict a box for each entity that possesses the attribute specified in the prompt. Then, depending on the predicted boxes, unique mask control is applied to the cross- and self-attention maps. Our approach produces a more semantically accurate synthesis by constraining the attention regions of each token in the prompt to the image. In addition, the proposed method is straightforward and effective, and can be readily integrated into existing cross-attention-diffusion-based T2I generators. We compare our approach to competing methods and demonstrate that it not only faithfully conveys the semantics of the original text to the generated content, but also achieves high availability as a ready-to-use plugin.
Abstract（参考訳）: 最近のtext-to-image(t2i)拡散モデルは、テキストプロンプトに基づく高品質画像の生成において優れた性能を示している。しかし、これらのモデルは合成能力が限られているため、生成した画像とテキスト記述を意味的に一致させることに失敗し、属性の漏洩、エンティティの漏洩、エンティティの欠如を招いた。本稿では,これら3つの課題に対処するために,予測対象ボックスに基づく注意マスク制御手法を提案する。特に、プロンプトで指定された属性を持つ各エンティティのボックスを予測するために、まずboxnetをトレーニングします。そして、予測ボックスに応じて、クロスマップとセルフアテンションマップに独自のマスク制御を適用する。提案手法は,画像へのプロンプト中の各トークンの注意領域を制約することにより,より意味論的に合成する。さらに,提案手法は単純かつ効果的であり,既存のクロスアテンション拡散型T2Iジェネレータに容易に組み込むことができる。提案手法を競合する手法と比較し,オリジナルテキストのセマンティクスを生成コンテンツに忠実に伝達するだけでなく,利用できるプラグインとして高可用性を実現することを示す。

関連論文リスト

SeeDiff: Off-the-Shelf Seeded Mask Generation from Diffusion Models [6.0870128457015715]
我々は,クロスアテンションだけで非常に粗い物体の局在が得られ,初期種子が得られることを示した。また、単純なテキスト誘導合成画像は、一様背景を持つことが多く、対応を見つけるのが容易であることも観察した。提案手法はSeeDiffと呼ばれ,Stable Diffusionから高品質なマスクをオフザシェルフで生成する。
論文参考訳（メタデータ） (2025-07-26T05:44:00Z)
VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文参考訳（メタデータ） (2025-05-02T08:31:43Z)
LLM-guided Instance-level Image Manipulation with Diffusion U-Net Cross-Attention Maps [5.836227628651603]
本稿では,大規模言語モデル,オープンボキャブラリ検出器,クロスアテンションマップ,インスタンスレベルの画像操作のための拡散U-Netを活用するパイプラインを提案する。提案手法は,プロンプトに記述されたオブジェクトと生成画像に存在するオブジェクトを検知し,広範囲なトレーニングや入力マスクを使わずに正確な操作を可能にする。
論文参考訳（メタデータ） (2025-01-23T19:26:14Z)
Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文参考訳（メタデータ） (2025-01-02T18:52:11Z)
Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文参考訳（メタデータ） (2024-09-12T17:55:37Z)
Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文参考訳（メタデータ） (2024-04-21T20:26:46Z)
Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models [1.6450779686641077]
OVAM(Open-Vocabulary Attention Maps)は,テキスト・画像拡散モデルのためのトレーニング不要な手法である。既存の安定拡散拡張の中でこれらのトークンを評価する。
論文参考訳（メタデータ） (2024-03-21T10:56:12Z)
MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文参考訳（メタデータ） (2023-09-08T15:53:37Z)
Masked-Attention Diffusion Guidance for Spatially Controlling Text-to-Image Generation [1.0152838128195465]
拡散モデルのさらなる訓練を伴わずにテキスト・画像生成を空間的に制御する手法を提案する。我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。
論文参考訳（メタデータ） (2023-08-11T09:15:22Z)
Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-07T23:49:34Z)
StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文参考訳（メタデータ） (2023-03-01T07:32:51Z)
DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文参考訳（メタデータ） (2022-10-20T17:16:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。