論文の概要: Designing an Encoder for Fast Personalization of Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2302.12228v2
- Date: Sun, 26 Feb 2023 18:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 12:18:29.474964
- Title: Designing an Encoder for Fast Personalization of Text-to-Image Models
- Title(参考訳): テキスト・画像モデルの高速パーソナライズのためのエンコーダの設計
- Authors: Rinon Gal, Moab Arar, Yuval Atzmon, Amit H. Bermano, Gal Chechik,
Daniel Cohen-Or
- Abstract要約: テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
- 参考スコア(独自算出の注目度): 57.62449900121022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image personalization aims to teach a pre-trained diffusion model to
reason about novel, user provided concepts, embedding them into new scenes
guided by natural language prompts. However, current personalization approaches
struggle with lengthy training times, high storage requirements or loss of
identity. To overcome these limitations, we propose an encoder-based
domain-tuning approach. Our key insight is that by underfitting on a large set
of concepts from a given domain, we can improve generalization and create a
model that is more amenable to quickly adding novel concepts from the same
domain. Specifically, we employ two components: First, an encoder that takes as
an input a single image of a target concept from a given domain, e.g. a
specific face, and learns to map it into a word-embedding representing the
concept. Second, a set of regularized weight-offsets for the text-to-image
model that learn how to effectively ingest additional concepts. Together, these
components are used to guide the learning of unseen concepts, allowing us to
personalize a model using only a single image and as few as 5 training steps -
accelerating personalization from dozens of minutes to seconds, while
preserving quality.
- Abstract(参考訳): テキストから画像へのパーソナライゼーションは、学習済みの拡散モデルに、新しいユーザーが提供する概念を推論し、それらを自然言語プロンプトによって誘導された新しいシーンに埋め込むように教えることを目的としている。
しかし、現在のパーソナライゼーションアプローチは、長いトレーニング時間、高いストレージ要件、あるいはアイデンティティの喪失に苦しむ。
これらの制限を克服するため,エンコーダに基づくドメインチューニング手法を提案する。
私たちの重要な洞察は、与えられたドメインから大きな概念セットを満たすことで、一般化を改善し、同じドメインから新しい概念を素早く追加できるモデルを作ることができるということです。
具体的には、まず、特定のドメイン、例えば特定の顔から対象概念の単一イメージを入力として取り込んで、その概念を表す単語埋め込みにマッピングする方法を学ぶエンコーダという2つのコンポーネントを用いる。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージモデルのための正規化重み付けのセット。
これらのコンポーネントを併用して、目に見えない概念の学習をガイドし、単一のイメージだけでモデルをパーソナライズし、品質を維持しながら、数十分から秒間のパーソナライズを加速する5つのトレーニングをすることができる。
関連論文リスト
- AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image
Personalization [56.892032386104006]
CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。
ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
論文 参考訳(メタデータ) (2023-11-24T17:55:10Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - InstantBooth: Personalized Text-to-Image Generation without Test-Time
Finetuning [20.127745565621616]
InstantBoothは、事前訓練されたテキスト・ツー・イメージモデルに基づく新しいアプローチである。
本モデルでは,言語画像のアライメント,画像の忠実度,アイデンティティの保存に関する未確認概念に関する競合的な結果を生成することができる。
論文 参考訳(メタデータ) (2023-04-06T23:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。