論文の概要: AI-T2I: Aggregating-and-Isolating Cross-Attention to Diffusion Models for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2605.25763v2
- Date: Tue, 26 May 2026 02:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.168715
- Title: AI-T2I: Aggregating-and-Isolating Cross-Attention to Diffusion Models for Text-to-Image Synthesis
- Title(参考訳): AI-T2I:テキストと画像の合成のための拡散モデルへの集約と分離のクロスアテンション
- Authors: Shipeng Cao, Biao Qian, Haipeng Liu, Yang Wang, Meng Wang,
- Abstract要約: 本稿では,AI-T2Iと呼ばれるテキスト間合成のための拡散モデルに対するアグリゲーション・アンド・アイソレート・クロスアテンション手法を提案する。
我々のAI-T2Iは、例えば、制御可能なレイアウト生成やパーソナライズされた生成など、他のタスクに対して優れた一般化を示す。
- 参考スコア(独自算出の注目度): 12.76456980137364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image synthesis has made significant progress, benefiting from the strong generative capabilities of diffusion models. However, these models struggle to achieve precise text-to-image alignment within cross-attention maps during the denoising process. Existing works primarily focus on inter-subject-token activations (i.e., cross-attention scores) overlap for different subjects, overlooking the intra-subject-token activations scattering issue for identical subjects. In this paper, we propose an Aggregating-and-Isolating cross-attention approach to diffusion models for Text-to-Image synthesis, dubbed AI-T2I. Technically, to address the scattering issue, we devise an aggregation loss to identify and consolidate the scattered intra-token activations, which implicitly helps mitigate the potential overlap issue. Upon that, an isolation loss is further introduced to push the inter-token activations apart, thus fulfilling precise text-to-image alignment. Extensive experiments on various benchmarks demonstrate the superiority of AI-T2I over the state-of-the-art works for text-to-image synthesis. Furthermore, our AI-T2I exhibits excellent generalization across other tasks, e.g., controllable layout generation and personalized generation.
- Abstract(参考訳): テキストと画像の合成は、拡散モデルの強力な生成能力の恩恵を受け、大きな進歩を遂げた。
しかし,これらのモデルでは,デノナイジング過程において,横断アテンションマップ内の正確なテキストと画像のアライメントを実現するのに苦労している。
既存の研究は主に、異なる被験者に対するオブジェクト間のアクティベーション(すなわち、クロスアテンションスコア)のオーバーラップに焦点を当て、同一被験者に対するオブジェクト間のアクティベーションの散乱問題を見下ろしている。
本稿では,AI-T2Iと呼ばれるテキスト対画像合成のための拡散モデルに対するアグリゲーション・アンド・アイソレーション・クロスアテンション手法を提案する。
技術的には,散乱問題に対処するために,散乱したトケイン内アクティベーションの同定と統合を行うアグリゲーション損失を考案する。
これにより、分離損失がさらに導入され、トークン間のアクティベーションを分離し、正確なテキストと画像のアライメントが実現される。
様々なベンチマークでの大規模な実験は、テキストから画像への合成のための最先端の作業よりもAI-T2Iの方が優れていることを示した。
さらに、我々のAI-T2Iは、例えば、制御可能なレイアウト生成、パーソナライズされた生成など、他のタスクにまたがる優れた一般化を示す。
関連論文リスト
- Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar Subjects [1.419173007355272]
自己クロース拡散誘導(Self-Cross Diffusion Guidance)は、クロスアテンションマップとアグリゲートされた自己アテンションマップの重複を罰する。
各被験者に対して、より高い横断的な値を持つパッチの自己注意マップを集約する。
提案手法は,Unetベースの拡散モデルとTransformerベースの拡散モデルの両方の性能を向上させる。
論文 参考訳(メタデータ) (2024-11-28T05:58:03Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - Grounded Text-to-Image Synthesis with Attention Refocusing [16.9170825951175]
拡散モデルのクロスアテンション層と自己アテンション層の潜在的な原因を明らかにする。
そこで本研究では,サンプリング中の空間配置に応じて注目マップを再焦点化するための2つの新たな損失を提案する。
提案手法は,既存手法の制御性を効果的に向上することを示す。
論文 参考訳(メタデータ) (2023-06-08T17:59:59Z) - Not Just Pretty Pictures: Toward Interventional Data Augmentation Using Text-to-Image Generators [12.053125079460234]
このような環境要因に対する任意の介入をシミュレートするために、現代のT2Iジェネレータがどのように使用できるかを示す。
我々の経験的発見は、安定拡散のような現代のT2Iジェネレータが、強力な介入データ拡張メカニズムとして実際に使用できることを示している。
論文 参考訳(メタデータ) (2022-12-21T18:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。