論文の概要: Object-Conditioned Energy-Based Attention Map Alignment in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.07389v1
- Date: Wed, 10 Apr 2024 23:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 15:28:21.706404
- Title: Object-Conditioned Energy-Based Attention Map Alignment in Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおけるオブジェクト指向エネルギーベースアテンションマップアライメント
- Authors: Yasi Zhang, Peiyu Yu, Ying Nian Wu,
- Abstract要約: 本稿では、上記の問題に対処するために、オブジェクト条件付きエネルギーベースアテンションマップアライメント(EBAMA)手法を提案する。
パラメータ化エネルギーベースモデルのログ類似度を最大化することにより,オブジェクト中心の属性結合損失が自然に発生することを示す。
提案手法は,拡散モデルのテキスト制御画像編集能力を一層向上させる。
- 参考スコア(独自算出の注目度): 36.984151318293726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have shown great success in generating high-quality text-guided images. Yet, these models may still fail to semantically align generated images with the provided text prompts, leading to problems like incorrect attribute binding and/or catastrophic object neglect. Given the pervasive object-oriented structure underlying text prompts, we introduce a novel object-conditioned Energy-Based Attention Map Alignment (EBAMA) method to address the aforementioned problems. We show that an object-centric attribute binding loss naturally emerges by approximately maximizing the log-likelihood of a $z$-parameterized energy-based model with the help of the negative sampling technique. We further propose an object-centric intensity regularizer to prevent excessive shifts of objects attention towards their attributes. Extensive qualitative and quantitative experiments, including human evaluation, on several challenging benchmarks demonstrate the superior performance of our method over previous strong counterparts. With better aligned attention maps, our approach shows great promise in further enhancing the text-controlled image editing ability of diffusion models.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルは高品質なテキスト誘導画像を生成する上で大きな成功を収めている。
しかし、これらのモデルは、提供されるテキストプロンプトと生成した画像を意味的に整合させることができず、誤った属性バインディングや破滅的なオブジェクトの無視といった問題を引き起こします。
テキストプロンプトを基盤とする広汎なオブジェクト指向構造を考えると、上記の問題に対処するための新しいオブジェクト指向エネルギーベース注意マップアライメント(EBAMA)法を導入する。
負のサンプリング手法を用いて,z$パラメータ化エネルギーベースモデルのログ類似度をほぼ最大化することにより,オブジェクト中心の属性結合損失が自然に発生することを示す。
さらに,物体の属性に対する過度な注目の変化を防止するために,物体中心の強度正規化器を提案する。
人間の評価を含む広範囲な定性的・定量的な実験を、いくつかの挑戦的なベンチマークで実施し、我々の手法が従来の強靭な手法よりも優れた性能を示した。
よりアライメントされたアテンションマップにより、拡散モデルのテキスト制御画像編集能力を一層向上させることが期待できる。
関連論文リスト
- Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。
最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。
そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。
本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文 参考訳(メタデータ) (2024-11-25T10:57:48Z) - Towards Small Object Editing: A Benchmark Dataset and A Training-Free Approach [13.262064234892282]
テキストとこれらのオブジェクト間の相互注意マップの整列が困難であるため、小さなオブジェクト生成は制限されている。
我々の手法は、このアライメント問題を局所的およびグローバルな注意誘導とともに大幅に軽減する、トレーニング不要な手法を提供する。
予備的な結果から,本手法の有効性が示され,既存モデルと比較して,小型オブジェクト生成の忠実度と精度が著しく向上した。
論文 参考訳(メタデータ) (2024-11-03T12:38:23Z) - Magnet: We Never Know How Text-to-Image Diffusion Models Work, Until We Learn How Vision-Language Models Function [13.588643982359413]
属性理解におけるCLIPテキストエンコーダの限界を批判的に検討し,それが拡散モデルに与える影響について検討する。
属性結合問題に対処するための新しいトレーニング不要アプローチである textbf magnet を提案する。
論文 参考訳(メタデータ) (2024-09-30T05:36:24Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Energy-Based Cross Attention for Bayesian Context Update in
Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。
具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。
我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文 参考訳(メタデータ) (2023-06-16T14:30:41Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。