論文の概要: Nested Attention: Semantic-aware Attention Values for Concept Personalization
- arxiv url: http://arxiv.org/abs/2501.01407v1
- Date: Thu, 02 Jan 2025 18:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:12.224617
- Title: Nested Attention: Semantic-aware Attention Values for Concept Personalization
- Title(参考訳): Nested Attention:概念パーソナライゼーションのための意味認識注意値
- Authors: Or Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or,
- Abstract要約: 我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
- 参考スコア(独自算出の注目度): 78.90196530697897
- License:
- Abstract: Personalizing text-to-image models to generate images of specific subjects across diverse scenes and styles is a rapidly advancing field. Current approaches often face challenges in maintaining a balance between identity preservation and alignment with the input text prompt. Some methods rely on a single textual token to represent a subject, which limits expressiveness, while others employ richer representations but disrupt the model's prior, diminishing prompt alignment. In this work, we introduce Nested Attention, a novel mechanism that injects a rich and expressive image representation into the model's existing cross-attention layers. Our key idea is to generate query-dependent subject values, derived from nested attention layers that learn to select relevant subject features for each region in the generated image. We integrate these nested layers into an encoder-based personalization method, and show that they enable high identity preservation while adhering to input text prompts. Our approach is general and can be trained on various domains. Additionally, its prior preservation allows us to combine multiple personalized subjects from different domains in a single image.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルをパーソナライズして、さまざまなシーンやスタイルにまたがる特定の対象のイメージを生成することは、急速に進歩する分野である。
現在のアプローチでは、ID保存と入力テキストプロンプトとの整合性のバランスを維持する上で、しばしば課題に直面している。
いくつかのメソッドは、対象を表現するために単一のテキストトークンに依存しており、表現性を制限するものもあれば、よりリッチな表現を用いるものもあるが、モデルの事前を混乱させ、即時アライメントを低下させるものもある。
本研究では,モデルの既存のクロスアテンション層にリッチかつ表現力のあるイメージ表現を注入する新しいメカニズムであるNested Attentionを紹介する。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
我々は、これらのネスト層をエンコーダベースのパーソナライズ手法に統合し、入力されたテキストプロンプトに固執しながら高いアイデンティティ保存を可能にすることを示す。
私たちのアプローチは一般的で、さまざまなドメインでトレーニングすることができます。
さらに、その先行保存により、異なるドメインから複数のパーソナライズされた被写体を1つの画像で組み合わせることができる。
関連論文リスト
- MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。