論文の概要: CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image
Personalization
- arxiv url: http://arxiv.org/abs/2311.14631v1
- Date: Fri, 24 Nov 2023 17:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 14:23:19.817293
- Title: CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image
Personalization
- Title(参考訳): CatVersion: 拡散に基づくテキスト-画像パーソナライズのための埋め込みの統合
- Authors: Ruoyu Zhao, Mingrui Zhu, Shiyin Dong, Nannan Wang, Xinbo Gao
- Abstract要約: CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。
ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
- 参考スコア(独自算出の注目度): 56.892032386104006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose CatVersion, an inversion-based method that learns the personalized
concept through a handful of examples. Subsequently, users can utilize text
prompts to generate images that embody the personalized concept, thereby
achieving text-to-image personalization. In contrast to existing approaches
that emphasize word embedding learning or parameter fine-tuning for the
diffusion model, which potentially causes concept dilution or overfitting, our
method concatenates embeddings on the feature-dense space of the text encoder
in the diffusion model to learn the gap between the personalized concept and
its base class, aiming to maximize the preservation of prior knowledge in
diffusion models while restoring the personalized concepts. To this end, we
first dissect the text encoder's integration in the image generation process to
identify the feature-dense space of the encoder. Afterward, we concatenate
embeddings on the Keys and Values in this space to learn the gap between the
personalized concept and its base class. In this way, the concatenated
embeddings ultimately manifest as a residual on the original attention output.
To more accurately and unbiasedly quantify the results of personalized image
generation, we improve the CLIP image alignment score based on masks.
Qualitatively and quantitatively, CatVersion helps to restore personalization
concepts more faithfully and enables more robust editing.
- Abstract(参考訳): 少数の例を通してパーソナライズされた概念を学習するインバージョンベースの手法であるCatVersionを提案する。
その後、ユーザはテキストプロンプトを利用してパーソナライズされた概念を具現化した画像を生成し、テキストから画像へのパーソナライズを可能にする。
拡散モデルにおける単語埋め込み学習やパラメータの微調整を重要視する既存の手法とは対照的に,本手法は,拡散モデルにおけるテキストエンコーダの特徴密度空間への埋め込みを結合して,個人化概念と基本クラスとのギャップを学習し,拡散モデルにおける事前知識の保存を最大化し,パーソナライズされた概念を復元する。
この目的のために,まず画像生成プロセスにおけるテキストエンコーダの統合を解析し,エンコーダの特徴空間を同定する。
その後、私たちは、パーソナライズされた概念と基本クラスの間のギャップを学ぶために、この領域のキーと値に埋め込みを結合します。
このように、連結埋め込みは最終的に元の注意出力の残差として表される。
パーソナライズされた画像生成の結果をより正確かつ偏りなく定量化するために,マスクに基づくクリップ画像アライメントスコアを改善する。
CatVersionは質的かつ定量的に、パーソナライズの概念をより忠実に復元し、より堅牢な編集を可能にする。
関連論文リスト
- Mining Your Own Secrets: Diffusion Classifier Scores for Continual Personalization of Text-to-Image Diffusion Models [39.46152582128077]
現実の世界では、ユーザーは複数の概念のモデルを一度に1つずつパーソナライズしたいと考えるかもしれない。
ほとんどのパーソナライズ手法は、新しい概念の獲得と以前の概念の維持のバランスを見つけることができない。
本稿では,テキスト・画像拡散モデルのパラメータ空間と関数空間の正規化を提案する。
論文 参考訳(メタデータ) (2024-10-01T13:54:29Z) - Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition [47.07564907486087]
近年のテキスト・画像拡散モデルでは,新規でパーソナライズされた概念を含む画像の学習と合成が可能となっている。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
論文 参考訳(メタデータ) (2024-02-23T18:55:09Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - A Neural Space-Time Representation for Text-to-Image Personalization [46.772764467280986]
テキスト・ツー・イメージのパーソナライズ手法の重要な側面は、生成プロセス内でターゲット概念が表現される方法である。
本稿では,デノナイジングプロセスの時間ステップ(時間)とデノナイジングU-Netレイヤ(空間)の両方に依存する新しいテキストコンディショニング空間について検討する。
時空表現における単一の概念は、時間と空間の組み合わせごとに数百のベクトルで構成されており、この空間を直接最適化することは困難である。
論文 参考訳(メタデータ) (2023-05-24T17:53:07Z) - ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文 参考訳(メタデータ) (2023-02-27T14:49:53Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。