論文の概要: Decoupled Textual Embeddings for Customized Image Generation
- arxiv url: http://arxiv.org/abs/2312.11826v1
- Date: Tue, 19 Dec 2023 03:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 17:11:17.199061
- Title: Decoupled Textual Embeddings for Customized Image Generation
- Title(参考訳): カスタマイズ画像生成のための分離テキスト埋め込み
- Authors: Yufei Cai, Yuxiang Wei, Zhilong Ji, Jinfeng Bai, Hu Han and Wangmeng
Zuo
- Abstract要約: カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
- 参考スコア(独自算出の注目度): 62.98933630971543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customized text-to-image generation, which aims to learn user-specified
concepts with a few images, has drawn significant attention recently. However,
existing methods usually suffer from overfitting issues and entangle the
subject-unrelated information (e.g., background and pose) with the learned
concept, limiting the potential to compose concept into new scenes. To address
these issues, we propose the DETEX, a novel approach that learns the
disentangled concept embedding for flexible customized text-to-image
generation. Unlike conventional methods that learn a single concept embedding
from the given images, our DETEX represents each image using multiple word
embeddings during training, i.e., a learnable image-shared subject embedding
and several image-specific subject-unrelated embeddings. To decouple irrelevant
attributes (i.e., background and pose) from the subject embedding, we further
present several attribute mappers that encode each image as several
image-specific subject-unrelated embeddings. To encourage these unrelated
embeddings to capture the irrelevant information, we incorporate them with
corresponding attribute words and propose a joint training strategy to
facilitate the disentanglement. During inference, we only use the subject
embedding for image generation, while selectively using image-specific
embeddings to retain image-specified attributes. Extensive experiments
demonstrate that the subject embedding obtained by our method can faithfully
represent the target concept, while showing superior editability compared to
the state-of-the-art methods. Our code will be made published available.
- Abstract(参考訳): ユーザが指定した概念を少数の画像で学習することを目的としたカスタマイズされたテキスト・ツー・イメージ生成が近年注目されている。
しかし、既存の手法は通常、問題を過度に満たし、学習された概念と主題非関連情報(例えば背景やポーズ)を絡め込み、概念を新しい場面に構成する可能性を制限する。
これらの問題に対処するため,我々は,フレキシブルなテキスト対画像生成のための概念埋め込みを学習する新しい手法であるdetexを提案する。
与えられた画像から1つの概念の埋め込みを学ぶ従来の方法とは異なり、私たちのDETEXは訓練中に複数の単語の埋め込みを用いて各画像を表現する。
非関連属性(背景とポーズ)を対象埋め込みから切り離すため、さらに、各画像を複数の画像固有の対象非関連埋め込みとしてエンコードする属性マッパーをいくつか提示する。
これらの非関係な埋め込みが無関係な情報を捉えることを奨励するため、対応する属性語を組み込んだ共同学習戦略を提案する。
推論中は画像生成にのみ被写体埋め込みを使用し、画像固有の埋め込みを用いて画像特定属性を保持する。
広範な実験により,本手法で得られた被写体埋め込みは,最先端の手法と比較して編集性に優れながら,対象概念を忠実に表現できることを示した。
私たちのコードは公開されます。
関連論文リスト
- Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。
本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T13:31:39Z) - Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。
提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。
提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-19T11:48:35Z) - Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition [47.07564907486087]
近年のテキスト・画像拡散モデルでは,新規でパーソナライズされた概念を含む画像の学習と合成が可能となっている。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
論文 参考訳(メタデータ) (2024-02-23T18:55:09Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - Unsupervised Compositional Concepts Discovery with Text-to-Image
Generative Models [80.75258849913574]
本稿では、異なる画像の集合を考えると、各画像を表す生成概念を発見できるかという逆問題を考える。
本稿では,画像の集合から生成概念を抽出し,絵画やオブジェクト,キッチンシーンからの照明から異なる美術スタイルを分離し,イメージネット画像から得られる画像クラスを発見するための教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:02:15Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Learning Multimodal Affinities for Textual Editing in Images [18.7418059568887]
文書イメージにおけるテキストエンティティ間のマルチモーダルな親和性を学ぶための汎用的な非監視手法を考案する。
次に、これらの学習親和性を使用して、画像内のテキストエンティティを異なるセマンティックグループに自動的にクラスタ化する。
本手法は,幅広い文書にまたがる高度に多様な画像に対して動作可能であり,様々な編集操作に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-03-18T10:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。