論文の概要: Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2403.16990v1
- Date: Mon, 25 Mar 2024 17:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:15:04.202536
- Title: Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation
- Title(参考訳): Be Yourself:マルチオブジェクトテキスト・ツー・イメージ・ジェネレーションのためのコンテキストアテンション
- Authors: Omer Dahary, Or Patashnik, Kfir Aberman, Daniel Cohen-Or,
- Abstract要約: 本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
- 参考スコア(独自算出の注目度): 60.943159830780154
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image diffusion models have an unprecedented ability to generate diverse and high-quality images. However, they often struggle to faithfully capture the intended semantics of complex input prompts that include multiple subjects. Recently, numerous layout-to-image extensions have been introduced to improve user control, aiming to localize subjects represented by specific tokens. Yet, these methods often produce semantically inaccurate images, especially when dealing with multiple semantically or visually similar subjects. In this work, we study and analyze the causes of these limitations. Our exploration reveals that the primary issue stems from inadvertent semantic leakage between subjects in the denoising process. This leakage is attributed to the diffusion model's attention layers, which tend to blend the visual features of different subjects. To address these issues, we introduce Bounded Attention, a training-free method for bounding the information flow in the sampling process. Bounded Attention prevents detrimental leakage among subjects and enables guiding the generation to promote each subject's individuality, even with complex multi-subject conditioning. Through extensive experimentation, we demonstrate that our method empowers the generation of multiple subjects that better align with given prompts and layouts.
- Abstract(参考訳): テキストから画像への拡散モデルは、多彩で高品質な画像を生成するという前例のない能力を持っている。
しかし、彼らはしばしば、複数の主題を含む複雑な入力プロンプトの意図された意味を忠実に捉えるのに苦労する。
近年、特定のトークンで表される対象をローカライズすることを目的として、ユーザ制御を改善するために多数のレイアウト・ツー・イメージ拡張が導入されている。
しかし、これらの手法は、特に複数の意味的または視覚的に類似した主題を扱う場合、しばしば意味的に不正確な画像を生成する。
本研究では,これらの制約の原因を研究・分析する。
調査の結果,主課題は認知過程における被験者間の不注意な意味的漏洩に起因することが明らかとなった。
この漏れは拡散モデルの注意層によるもので、異なる被験者の視覚的特徴をブレンドする傾向がある。
これらの問題に対処するために、サンプリングプロセスにおける情報の流れを束縛する訓練不要な手法である境界注意法(Bounded Attention)を導入する。
境界注意(Bounded Attention)は、被写体間の有害な漏洩を防止し、複雑なマルチオブジェクト・コンディショニングであっても、各被写体の個性を促進するための誘導を可能にする。
広範にわたる実験により,提案手法は,与えられたプロンプトやレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
関連論文リスト
- MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - PrimeComposer: Faster Progressively Combined Diffusion for Image Composition with Attention Steering [13.785484396436367]
我々は、画像合成を主観的な局所的な編集タスクとして定式化し、前景生成にのみ焦点をあてる。
本研究では,様々なノイズレベルに対して注意制御を適切に設計することで,画像の合成を行う高速なトレーニングフリーディフューザであるPrimeComposerを提案する。
提案手法は,最も高速な推論効率を示し,定性的かつ定量的に,我々の優位性を実証する広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-03-08T04:58:49Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。