論文の概要: Towards Better Text-to-Image Generation Alignment via Attention Modulation
- arxiv url: http://arxiv.org/abs/2404.13899v1
- Date: Mon, 22 Apr 2024 06:18:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 15:05:12.954360
- Title: Towards Better Text-to-Image Generation Alignment via Attention Modulation
- Title(参考訳): 注意制御によるテキスト・画像のアライメント改善に向けて
- Authors: Yihang Wu, Xiao Cao, Kaixin Li, Zitan Chen, Haonan Wang, Lei Meng, Zhiyong Huang,
- Abstract要約: 本研究では,拡散モデルに対する注意の変調による学習自由な位相ワイズ機構である属性焦点機構を提案する。
クロスアテンションモジュールには、オブジェクト指向マスキングスキームと位相ワイドダイナミックウェイトコントロール機構が組み込まれている。
様々なアライメントシナリオにおける実験結果から,我々のモデルは最小の計算コストでより優れた画像テキストアライメントを実現することができた。
- 参考スコア(独自算出の注目度): 16.020834525343997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text-to-image generation tasks, the advancements of diffusion models have facilitated the fidelity of generated results. However, these models encounter challenges when processing text prompts containing multiple entities and attributes. The uneven distribution of attention results in the issues of entity leakage and attribute misalignment. Training from scratch to address this issue requires numerous labeled data and is resource-consuming. Motivated by this, we propose an attribution-focusing mechanism, a training-free phase-wise mechanism by modulation of attention for diffusion model. One of our core ideas is to guide the model to concentrate on the corresponding syntactic components of the prompt at distinct timesteps. To achieve this, we incorporate a temperature control mechanism within the early phases of the self-attention modules to mitigate entity leakage issues. An object-focused masking scheme and a phase-wise dynamic weight control mechanism are integrated into the cross-attention modules, enabling the model to discern the affiliation of semantic information between entities more effectively. The experimental results in various alignment scenarios demonstrate that our model attain better image-text alignment with minimal additional computational cost.
- Abstract(参考訳): テキスト・画像生成タスクにおいて、拡散モデルの進歩は、生成された結果の忠実性を促進する。
しかし、これらのモデルでは、複数のエンティティや属性を含むテキストプロンプトを処理する際に問題が発生する。
不均一な注意分布は、エンティティの漏洩と属性の誤調整の問題を生じさせる。
この問題に対処するためには、スクラッチからトレーニングを行うには、多数のラベル付きデータが必要で、リソースを消費する。
そこで本研究では,拡散モデルに対する注意の変調による学習自由な位相ワイズ機構である属性焦点機構を提案する。
私たちの中核的なアイデアの1つは、異なるタイミングでプロンプトの対応する構文コンポーネントに集中するように、モデルを導くことです。
これを実現するために,自己保持モジュールの初期段階に温度制御機構を組み込んで,エンティティの漏洩問題を緩和する。
オブジェクト中心マスキング方式と位相方向の動的重み制御機構をクロスアテンションモジュールに統合し、モデルがエンティティ間のセマンティック情報の関連性をより効果的に識別できるようにする。
様々なアライメントシナリオにおける実験結果から,我々のモデルは最小の計算コストでより優れた画像テキストアライメントを実現することができた。
関連論文リスト
- FilterPrompt: Guiding Image Transfer in Diffusion Models [9.386850486378382]
FilterPromptは、モデル制御効果を強化するアプローチである。
任意の拡散モデルに普遍的に適用することができ、ユーザーは特定の画像の特徴の表現を調整できる。
論文 参考訳(メタデータ) (2024-04-20T04:17:34Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Controllable Topic-Focused Abstractive Summarization [57.8015120583044]
制御された抽象的な要約は、特定の側面をカバーするために、ソース記事の凝縮したバージョンを作成することに焦点を当てる。
本稿では,トピックに着目した要約を生成可能なトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-12T03:51:38Z) - Training-free Diffusion Model Adaptation for Variable-Sized
Text-to-Image Synthesis [45.19847146506007]
拡散モデル(DM)は近年,テキスト・画像合成における最先端性能に注目されている。
本稿では,視覚的忠実度を維持しながら多彩性を扱うためにテキスト・画像拡散モデルを適用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-06-14T17:23:07Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - Reduce, Reuse, Recycle: Compositional Generation with Energy-Based
Diffusion Models and MCMC [106.06185677214353]
拡散モデルは、多くの領域において、生成モデリングの一般的なアプローチとなっている。
本稿では,新しい構成演算子の利用を可能にする拡散モデルのエネルギーベースパラメータ化を提案する。
これらのサンプルは、幅広い問題にまたがって構成生成の顕著な改善につながっている。
論文 参考訳(メタデータ) (2023-02-22T18:48:46Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。