論文の概要: Harmonizing Visual and Textual Embeddings for Zero-Shot Text-to-Image Customization
- arxiv url: http://arxiv.org/abs/2403.14155v1
- Date: Thu, 21 Mar 2024 06:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 15:17:21.788391
- Title: Harmonizing Visual and Textual Embeddings for Zero-Shot Text-to-Image Customization
- Title(参考訳): ゼロショットテキスト・ツー・イメージのカスタマイズのための視覚的・テキスト的埋め込みの調和
- Authors: Yeji Song, Jimyeong Kim, Wonhark Park, Wonsik Shin, Wonjong Rhee, Nojun Kwak,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルの急増とそのカスタマイズ手法は、ユーザが提供する対象の新たなイメージを生成する。
これらのゼロショットカスタマイズ方法は、特定の対象の画像を視覚埋め込みにエンコードし、テキスト埋め込みと共に拡散誘導に利用する。
与えられたテキスト埋め込みと効果的に調和する視覚埋め込みを提案する。
また、視覚のみの埋め込みを採用し、自己注意スワップを用いて被験者の明確な特徴を注入する。
- 参考スコア(独自算出の注目度): 23.04290567321589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a surge of text-to-image (T2I) models and their customization methods that generate new images of a user-provided subject, current works focus on alleviating the costs incurred by a lengthy per-subject optimization. These zero-shot customization methods encode the image of a specified subject into a visual embedding which is then utilized alongside the textual embedding for diffusion guidance. The visual embedding incorporates intrinsic information about the subject, while the textual embedding provides a new, transient context. However, the existing methods often 1) are significantly affected by the input images, eg., generating images with the same pose, and 2) exhibit deterioration in the subject's identity. We first pin down the problem and show that redundant pose information in the visual embedding interferes with the textual embedding containing the desired pose information. To address this issue, we propose orthogonal visual embedding which effectively harmonizes with the given textual embedding. We also adopt the visual-only embedding and inject the subject's clear features utilizing a self-attention swap. Our results demonstrate the effectiveness and robustness of our method, which offers highly flexible zero-shot generation while effectively maintaining the subject's identity.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの急増と、ユーザが提供する対象の新たなイメージを生成するカスタマイズ方法において、現在の作業は、オブジェクトごとの長い最適化によって生じるコストを軽減することに重点を置いている。
これらのゼロショットカスタマイズ方法は、特定の対象の画像を視覚埋め込みにエンコードし、テキスト埋め込みと共に拡散誘導に利用する。
視覚的埋め込みには本質的な情報が含まれており、テキスト埋め込みは新たな過渡的なコンテキストを提供する。
しかし、既存の方法はしばしば
1) 入力画像の影響は顕著であった。
で、同じポーズで画像を生成し、
2)対象者の身元が劣化している。
まず,視覚埋め込みにおける冗長なポーズ情報が,所望のポーズ情報を含むテキスト埋め込みに干渉することを示す。
この問題に対処するため,テキスト埋め込みと効果的に調和した直交型視覚埋め込みを提案する。
また、視覚のみの埋め込みを採用し、自己注意スワップを用いて被験者の明確な特徴を注入する。
提案手法の有効性とロバスト性を実証し, 被験者のアイデンティティを効果的に維持しつつ, 高いフレキシブルなゼロショット生成を実現する。
関連論文リスト
- Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace [52.24866347353916]
本稿では,テキストサブスペースへのターゲット埋め込みを効率的に探索する手法を提案する。
また,テキスト部分空間の基底を決定するための効率的な選択戦略を提案する。
本手法は、個人化されたテキスト・画像生成のためのより効率的な表現学習への扉を開く。
論文 参考訳(メタデータ) (2024-06-30T06:41:21Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。
提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。
提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-19T11:48:35Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。