論文の概要: Visual Concept-driven Image Generation with Text-to-Image Diffusion Model
- arxiv url: http://arxiv.org/abs/2402.11487v2
- Date: Wed, 17 Jul 2024 01:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 22:48:58.179904
- Title: Visual Concept-driven Image Generation with Text-to-Image Diffusion Model
- Title(参考訳): テキスト-画像拡散モデルを用いた視覚概念駆動画像生成
- Authors: Tanzila Rahman, Shweta Mahajan, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Leonid Sigal,
- Abstract要約: テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
- 参考スコア(独自算出の注目度): 65.96212844602866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (TTI) diffusion models have demonstrated impressive results in generating high-resolution images of complex and imaginative scenes. Recent approaches have further extended these methods with personalization techniques that allow them to integrate user-illustrated concepts (e.g., the user him/herself) using a few sample image illustrations. However, the ability to generate images with multiple interacting concepts, such as human subjects, as well as concepts that may be entangled in one, or across multiple, image illustrations remains illusive. In this work, we propose a concept-driven TTI personalization framework that addresses these core challenges. We build on existing works that learn custom tokens for user-illustrated concepts, allowing those to interact with existing text tokens in the TTI model. However, importantly, to disentangle and better learn the concepts in question, we jointly learn (latent) segmentation masks that disentangle these concepts in user-provided image illustrations. We do so by introducing an Expectation Maximization (EM)-like optimization procedure where we alternate between learning the custom tokens and estimating (latent) masks encompassing corresponding concepts in user-supplied images. We obtain these masks based on cross-attention, from within the U-Net parameterized latent diffusion model and subsequent DenseCRF optimization. We illustrate that such joint alternating refinement leads to the learning of better tokens for concepts and, as a by-product, latent masks. We illustrate the benefits of the proposed approach qualitatively and quantitatively with several examples and use cases that can combine three or more entangled concepts.
- Abstract(参考訳): テキスト・ツー・イメージ(TTI)拡散モデルでは、複雑で想像力のあるシーンの高解像度画像を生成するという印象的な結果が示されている。
近年のアプローチでは、これらの手法をパーソナライズ技術でさらに拡張し、いくつかのサンプル画像図を用いて、ユーザイリュートされた概念(例えば、ユーザ自身のもの)を統合できるようにしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つまたは複数の画像図形に絡み合った概念である。
本研究では,これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
ユーザ認証概念のカスタムトークンを学習し、TTIモデルで既存のテキストトークンと対話できるように、既存の作業に基づいて構築する。
しかし,問題となっている概念を解き散らし,よりよく学習するために,ユーザが提供するイメージイラストでこれらの概念を解き散らした(相対的な)セグメンテーションマスクを共同で学習する。
我々は、カスタムトークンの学習と、ユーザが提供する画像の対応する概念を含む(相対的な)マスクの推定を交互に行う、期待最大化(EM)のような最適化手順を導入する。
我々は、U-Netパラメータ化潜在拡散モデルとその後のDenseCRF最適化から、クロスアテンションに基づくこれらのマスクを得る。
このような共同改良が概念のより良いトークンの学習と、副産物である潜伏マスクの学習に繋がることを示す。
提案手法の利点を質的かつ定量的に,3つ以上の絡み合った概念を組み合わせられるいくつかの例とユースケースで説明する。
関連論文リスト
- IP-Composer: Semantic Composition of Visual Concepts [49.18472621931207]
合成画像生成のためのトレーニング不要アプローチであるIP-Composerを提案する。
提案手法は,入力画像のCLIP埋め込みを条件とした新しい画像を生成するIP-Adapter上に構築する。
テキストから特定された概念固有のCLIP-サブスペースに、複数の入力画像の投影から縫い付けられた複合埋め込みを製作することで、このアプローチを複数の視覚的入力に拡張する。
論文 参考訳(メタデータ) (2025-02-19T18:49:31Z) - MCM: Multi-layer Concept Map for Efficient Concept Learning from Masked Images [5.09981114473162]
マスク画像に基づく効率的な概念学習法を考案する最初の試みであるMCM(Multi-layer Concept Map)を提案する。
特に,異なるエンコーダ層とデコーダ層との相関関係を確立することで,非対称な概念学習アーキテクチャを導入する。
MCMは、全画像パッチの75%未満をトレーニングすることで、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-01T01:45:49Z) - AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Multi-Concept Customization of Text-to-Image Diffusion [51.8642043743222]
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。
本モデルは,複数の新しい概念のバリエーションを生成し,既存の概念を新しい設定でシームレスに構成する。
論文 参考訳(メタデータ) (2022-12-08T18:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。