Fugu-MT 論文翻訳(概要): A-STAR: Test-time Attention Segregation and Retention for Text-to-image Synthesis

論文の概要: A-STAR: Test-time Attention Segregation and Retention for Text-to-image Synthesis

arxiv url: http://arxiv.org/abs/2306.14544v1
Date: Mon, 26 Jun 2023 09:34:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 14:16:22.851557
Title: A-STAR: Test-time Attention Segregation and Retention for Text-to-image Synthesis
Title（参考訳）: A-STAR:テキスト・画像合成のためのテスト時間注意分離と保持
Authors: Aishwarya Agarwal and Srikrishna Karanam and K J Joseph and Apoorv Saxena and Koustava Goswami and Balaji Vasan Srinivasan
Abstract要約: テキストから画像への生成モデルに対する2つのテストタイムアテンションに基づく損失関数を提案する。まず、注意分離損失は、テキストプロンプト内の異なる概念の注意マップ間の交差注意重なりを減少させる。第2に、注意保持損失は、テキストと画像の拡散モデルに対して、すべての認知時間ステップにおいて、すべての概念に対する横断的な情報を保持するよう、明示的に強制する。
参考スコア（独自算出の注目度）: 24.159726798004748
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While recent developments in text-to-image generative models have led to a suite of high-performing methods capable of producing creative imagery from free-form text, there are several limitations. By analyzing the cross-attention representations of these models, we notice two key issues. First, for text prompts that contain multiple concepts, there is a significant amount of pixel-space overlap (i.e., same spatial regions) among pairs of different concepts. This eventually leads to the model being unable to distinguish between the two concepts and one of them being ignored in the final generation. Next, while these models attempt to capture all such concepts during the beginning of denoising (e.g., first few steps) as evidenced by cross-attention maps, this knowledge is not retained by the end of denoising (e.g., last few steps). Such loss of knowledge eventually leads to inaccurate generation outputs. To address these issues, our key innovations include two test-time attention-based loss functions that substantially improve the performance of pretrained baseline text-to-image diffusion models. First, our attention segregation loss reduces the cross-attention overlap between attention maps of different concepts in the text prompt, thereby reducing the confusion/conflict among various concepts and the eventual capture of all concepts in the generated output. Next, our attention retention loss explicitly forces text-to-image diffusion models to retain cross-attention information for all concepts across all denoising time steps, thereby leading to reduced information loss and the preservation of all concepts in the generated output.
Abstract（参考訳）: 最近のテキストから画像への生成モデルの発展は、フリーフォームテキストからクリエイティブな画像を生成することができる一連の高パフォーマンスな手法を生み出してきたが、いくつかの制限がある。これらのモデルの相互注意表現を解析することにより、2つの重要な問題に気づく。第一に、複数の概念を含むテキストプロンプトには、異なる概念のペアの間にかなりの量のピクセル空間オーバーラップ(つまり同じ空間領域)が存在する。この結果、モデルが2つの概念を区別することができなくなり、そのうちの1つは最終世代で無視されることになる。次に、これらのモデルは、交叉写像によって証明される、投射の開始(例えば、最初の数ステップ)の間、そのような概念をすべて捉えようとするが、この知識は、投射の終わり(例えば、最後の数ステップ)には保持されない。このような知識の喪失は、最終的には不正確な生成出力につながる。これらの課題に対処するために、我々の重要なイノベーションは、事前訓練されたベースラインテキスト-画像拡散モデルの性能を大幅に改善する2つのテスト時間注意に基づく損失関数を含む。まず、注意分離損失は、テキストプロンプト内の異なる概念の注意マップ間の相互注意重なりを低減し、様々な概念間の混同/衝突を低減し、生成した出力中のすべての概念を最終的にキャプチャする。次に、注意保持損失は、テキストと画像の拡散モデルに対して、すべての認知時間ステップにおけるすべての概念の相互注意情報を明示的に保持するように強制する。

関連論文リスト

One Image is Worth a Thousand Words: A Usability Preservable Text-Image Collaborative Erasing Framework [127.07102988701092]
我々は、最初のテキストイメージ協調概念消去(Co-Erasing)フレームワークを紹介する。 Co-Erasingは、テキストプロンプトと、プロンプトによって誘導されるそれに対応する望ましくないイメージによって、この概念を共同で記述する。我々は,テキストガイドによる画像概念の洗練戦略を設計し,特定のテキスト概念に最も関係のある視覚的特徴に焦点を当てるようモデルに指示する。
論文参考訳（メタデータ） (2025-05-16T11:25:50Z)
FaR: Enhancing Multi-Concept Text-to-Image Diffusion via Concept Fusion and Localized Refinement [9.25127189426397]
現在の方法は、少数のサンプルで訓練するときに、しばしば過度に適合する。 FaRは、コンセプトフュージョン技術とローカライズされたリファインメント損失関数の2つの主要な貢献を通じて、これらの課題に取り組む新しいアプローチである。実証的な結果から、FaRはフォトリアリズムを維持しながら過剰な適合や属性の漏洩を防ぐだけでなく、他の最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-04-04T09:17:57Z)
Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文参考訳（メタデータ） (2025-03-25T15:49:48Z)
CoCoNO: Attention Contrast-and-Complete for Initial Noise Optimization in Text-to-Image Synthesis [8.386261591495103]
自己注意マップと相互注意マップの相補的な情報を活用することで、初期潜伏者を最適化する新しいアルゴリズムであるCoCoNOを導入する。本手法では,各自己注意区間が特定の被験者のクロスアテンションマップにのみリンクされていることを保証することで,所望のオーバーラップを最小化するアテンションコントラストロスと,これらのセグメント内でのアクティベーションを最大化し,各被写体が完全に明確に表現されることを保証するアテンション完全ロスという2つの新たなロス関数を導入する。
論文参考訳（メタデータ） (2024-11-25T08:20:14Z)
Towards Lifelong Few-Shot Customization of Text-to-Image Diffusion [50.26583654615212]
テキストと画像の拡散のための一生にわたる数ショットのカスタマイズは、最小限のデータで新しいタスクのための既存のモデルを継続的に一般化することを目的としている。本研究では,破滅的な忘れる問題を,関連する概念と過去の概念の2つに分類し,分類する。実データの追加やオリジナルの概念データのオフライン再生に頼っている既存の方法とは異なり,本手法では,新しい概念を学習しながら,事前知識の蒸留を行うことが可能である。
論文参考訳（メタデータ） (2024-11-08T12:58:48Z)
Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文参考訳（メタデータ） (2024-07-18T15:48:07Z)
AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文参考訳（メタデータ） (2024-05-28T08:50:14Z)
Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文参考訳（メタデータ） (2024-05-11T05:01:53Z)
Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-27T13:31:39Z)
Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文参考訳（メタデータ） (2024-03-17T01:27:00Z)
Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文参考訳（メタデータ） (2023-12-10T22:07:42Z)
Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文参考訳（メタデータ） (2023-10-11T12:05:44Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。