論文の概要: ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2302.13848v1
- Date: Mon, 27 Feb 2023 14:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 15:09:24.173002
- Title: ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation
- Title(参考訳): ELITE: カスタマイズされたテキスト-画像生成のためのテキスト埋め込みに視覚概念をエンコードする
- Authors: Yuxiang Wei, Yabo Zhang, Zhilong Ji, Jinfeng Bai, Lei Zhang, Wangmeng
Zuo
- Abstract要約: 高速かつ正確な概念カスタマイズのための学習ベースエンコーダを提案する。
より高速な符号化処理により,高忠実度インバージョンとロバストな編集性を実現する。
- 参考スコア(独自算出の注目度): 60.57155701856333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite unprecedented ability in imaginary creation, large text-to-image
models are further expected to express customized concepts. Existing works
generally learn such concepts in an optimization-based manner, yet bringing
excessive computation or memory burden. In this paper, we instead propose a
learning-based encoder for fast and accurate concept customization, which
consists of global and local mapping networks. In specific, the global mapping
network separately projects the hierarchical features of a given image into
multiple ``new'' words in the textual word embedding space, i.e., one primary
word for well-editable concept and other auxiliary words to exclude irrelevant
disturbances (e.g., background). In the meantime, a local mapping network
injects the encoded patch features into cross attention layers to provide
omitted details, without sacrificing the editability of primary concepts. We
compare our method with prior optimization-based approaches on a variety of
user-defined concepts, and demonstrate that our method enables more
high-fidelity inversion and robust editability with a significantly faster
encoding process. Our code will be publicly available at
https://github.com/csyxwei/ELITE.
- Abstract(参考訳): 前例のない想像上の創造能力にもかかわらず、大規模なテキストから画像へのモデルは、さらにカスタマイズされた概念を表現することが期待されている。
既存の作業は一般に最適化に基づいた方法でそのような概念を学習するが、過剰な計算やメモリ負荷をもたらす。
本稿では,グローバルおよびローカルマッピングネットワークで構成される,高速かつ正確な概念カスタマイズのための学習ベースエンコーダを提案する。
具体的には、グローバルマッピングネットワークは、ある画像の階層的特徴をテキスト語埋め込み空間における複数の「新しい」単語、すなわち、不適切な乱れ(例えば、背景)を排除するために、よく編集可能な概念と他の補助的な単語に別々に投影する。
一方、ローカルマッピングネットワークは、エンコードされたパッチ機能をクロスアテンション層に注入し、プライマリコンセプトの編集性を犠牲にすることなく、詳細を省略する。
提案手法は,様々なユーザ定義概念に対する事前最適化手法と比較し,より高速な符号化処理により,高忠実度インバージョンと堅牢な編集性を実現することを示す。
私たちのコードはhttps://github.com/csyxwei/eliteで公開されます。
関連論文リスト
- Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition [47.07564907486087]
近年のテキスト・画像拡散モデルでは,新規でパーソナライズされた概念を含む画像の学習と合成が可能となっている。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
論文 参考訳(メタデータ) (2024-02-23T18:55:09Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image
Personalization [56.892032386104006]
CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。
ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
論文 参考訳(メタデータ) (2023-11-24T17:55:10Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - A Neural Space-Time Representation for Text-to-Image Personalization [46.772764467280986]
テキスト・ツー・イメージのパーソナライズ手法の重要な側面は、生成プロセス内でターゲット概念が表現される方法である。
本稿では,デノナイジングプロセスの時間ステップ(時間)とデノナイジングU-Netレイヤ(空間)の両方に依存する新しいテキストコンディショニング空間について検討する。
時空表現における単一の概念は、時間と空間の組み合わせごとに数百のベクトルで構成されており、この空間を直接最適化することは困難である。
論文 参考訳(メタデータ) (2023-05-24T17:53:07Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。