論文の概要: ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2302.13848v2
- Date: Fri, 18 Aug 2023 17:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 00:46:23.980671
- Title: ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation
- Title(参考訳): ELITE: カスタマイズされたテキスト-画像生成のためのテキスト埋め込みに視覚概念をエンコードする
- Authors: Yuxiang Wei, Yabo Zhang, Zhilong Ji, Jinfeng Bai, Lei Zhang, Wangmeng
Zuo
- Abstract要約: 高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
- 参考スコア(独自算出の注目度): 59.44301617306483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In addition to the unprecedented ability in imaginary creation, large
text-to-image models are expected to take customized concepts in image
generation. Existing works generally learn such concepts in an
optimization-based manner, yet bringing excessive computation or memory burden.
In this paper, we instead propose a learning-based encoder, which consists of a
global and a local mapping networks for fast and accurate customized
text-to-image generation. In specific, the global mapping network projects the
hierarchical features of a given image into multiple new words in the textual
word embedding space, i.e., one primary word for well-editable concept and
other auxiliary words to exclude irrelevant disturbances (e.g., background). In
the meantime, a local mapping network injects the encoded patch features into
cross attention layers to provide omitted details, without sacrificing the
editability of primary concepts. We compare our method with existing
optimization-based approaches on a variety of user-defined concepts, and
demonstrate that our method enables high-fidelity inversion and more robust
editability with a significantly faster encoding process. Our code is publicly
available at https://github.com/csyxwei/ELITE.
- Abstract(参考訳): イメージ生成における前例のない能力に加えて、大きなテキスト・ツー・イメージモデルも画像生成においてカスタマイズされた概念を取り入れることが期待されている。
既存の作業は一般に最適化に基づいた方法でそのような概念を学習するが、過剰な計算やメモリ負荷をもたらす。
本稿では,高速かつ高精度なテキスト対画像生成を実現するために,グローバルおよびローカルマッピングネットワークからなる学習ベースのエンコーダを提案する。
具体的には、グローバルマッピングネットワークは、与えられた画像の階層的特徴をテキスト語埋め込み空間における複数の新しい単語、すなわち、不適切な乱れ(例えば背景)を除外するために、よく編集可能な概念のための1つの一次単語に投影する。
一方、ローカルマッピングネットワークは、エンコードされたパッチ機能をクロスアテンション層に注入し、プライマリコンセプトの編集性を犠牲にすることなく、詳細を省略する。
提案手法を,ユーザ定義のさまざまな概念に対する既存の最適化手法と比較し,より高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現することを示す。
私たちのコードはhttps://github.com/csyxwei/eliteで公開されています。
関連論文リスト
- Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition [47.07564907486087]
近年のテキスト・画像拡散モデルでは,新規でパーソナライズされた概念を含む画像の学習と合成が可能となっている。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
論文 参考訳(メタデータ) (2024-02-23T18:55:09Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image
Personalization [56.892032386104006]
CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。
ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
論文 参考訳(メタデータ) (2023-11-24T17:55:10Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - A Neural Space-Time Representation for Text-to-Image Personalization [46.772764467280986]
テキスト・ツー・イメージのパーソナライズ手法の重要な側面は、生成プロセス内でターゲット概念が表現される方法である。
本稿では,デノナイジングプロセスの時間ステップ(時間)とデノナイジングU-Netレイヤ(空間)の両方に依存する新しいテキストコンディショニング空間について検討する。
時空表現における単一の概念は、時間と空間の組み合わせごとに数百のベクトルで構成されており、この空間を直接最適化することは困難である。
論文 参考訳(メタデータ) (2023-05-24T17:53:07Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。