論文の概要: A-STAR: Test-time Attention Segregation and Retention for Text-to-image
Synthesis
- arxiv url: http://arxiv.org/abs/2306.14544v1
- Date: Mon, 26 Jun 2023 09:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 14:16:22.851557
- Title: A-STAR: Test-time Attention Segregation and Retention for Text-to-image
Synthesis
- Title(参考訳): A-STAR:テキスト・画像合成のためのテスト時間注意分離と保持
- Authors: Aishwarya Agarwal and Srikrishna Karanam and K J Joseph and Apoorv
Saxena and Koustava Goswami and Balaji Vasan Srinivasan
- Abstract要約: テキストから画像への生成モデルに対する2つのテストタイムアテンションに基づく損失関数を提案する。
まず、注意分離損失は、テキストプロンプト内の異なる概念の注意マップ間の交差注意重なりを減少させる。
第2に、注意保持損失は、テキストと画像の拡散モデルに対して、すべての認知時間ステップにおいて、すべての概念に対する横断的な情報を保持するよう、明示的に強制する。
- 参考スコア(独自算出の注目度): 24.159726798004748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent developments in text-to-image generative models have led to a
suite of high-performing methods capable of producing creative imagery from
free-form text, there are several limitations. By analyzing the cross-attention
representations of these models, we notice two key issues. First, for text
prompts that contain multiple concepts, there is a significant amount of
pixel-space overlap (i.e., same spatial regions) among pairs of different
concepts. This eventually leads to the model being unable to distinguish
between the two concepts and one of them being ignored in the final generation.
Next, while these models attempt to capture all such concepts during the
beginning of denoising (e.g., first few steps) as evidenced by cross-attention
maps, this knowledge is not retained by the end of denoising (e.g., last few
steps). Such loss of knowledge eventually leads to inaccurate generation
outputs. To address these issues, our key innovations include two test-time
attention-based loss functions that substantially improve the performance of
pretrained baseline text-to-image diffusion models. First, our attention
segregation loss reduces the cross-attention overlap between attention maps of
different concepts in the text prompt, thereby reducing the confusion/conflict
among various concepts and the eventual capture of all concepts in the
generated output. Next, our attention retention loss explicitly forces
text-to-image diffusion models to retain cross-attention information for all
concepts across all denoising time steps, thereby leading to reduced
information loss and the preservation of all concepts in the generated output.
- Abstract(参考訳): 最近のテキストから画像への生成モデルの発展は、フリーフォームテキストからクリエイティブな画像を生成することができる一連の高パフォーマンスな手法を生み出してきたが、いくつかの制限がある。
これらのモデルの相互注意表現を解析することにより、2つの重要な問題に気づく。
第一に、複数の概念を含むテキストプロンプトには、異なる概念のペアの間にかなりの量のピクセル空間オーバーラップ(つまり同じ空間領域)が存在する。
この結果、モデルが2つの概念を区別することができなくなり、そのうちの1つは最終世代で無視されることになる。
次に、これらのモデルは、交叉写像によって証明される、投射の開始(例えば、最初の数ステップ)の間、そのような概念をすべて捉えようとするが、この知識は、投射の終わり(例えば、最後の数ステップ)には保持されない。
このような知識の喪失は、最終的には不正確な生成出力につながる。
これらの課題に対処するために、我々の重要なイノベーションは、事前訓練されたベースラインテキスト-画像拡散モデルの性能を大幅に改善する2つのテスト時間注意に基づく損失関数を含む。
まず、注意分離損失は、テキストプロンプト内の異なる概念の注意マップ間の相互注意重なりを低減し、様々な概念間の混同/衝突を低減し、生成した出力中のすべての概念を最終的にキャプチャする。
次に、注意保持損失は、テキストと画像の拡散モデルに対して、すべての認知時間ステップにおけるすべての概念の相互注意情報を明示的に保持するように強制する。
関連論文リスト
- Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。
本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T13:31:39Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance [19.221431052643222]
本稿では,テキストと画像の拡散モデルに対して,複雑な場面における各主題間の相互干渉に対処するための一般的なアプローチを提案する。
本稿では,各アタッチメントを対応する対象に分割したテキストプロンプトで個別に結合することを提案する。
そして、各被験者を個別にテキストプロンプトで分離・再合成し、相互干渉を避ける。
論文 参考訳(メタデータ) (2024-03-25T17:16:27Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。