論文の概要: Inserting Anybody in Diffusion Models via Celeb Basis
- arxiv url: http://arxiv.org/abs/2306.00926v1
- Date: Thu, 1 Jun 2023 17:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 14:19:18.943305
- Title: Inserting Anybody in Diffusion Models via Celeb Basis
- Title(参考訳): セレブベースで拡散モデルに誰でも挿入する
- Authors: Ge Yuan, Xiaodong Cun, Yong Zhang, Maomao Li, Chenyang Qi, Xintao
Wang, Ying Shan, Huicheng Zheng
- Abstract要約: 本研究では,個別個人を事前学習した拡散モデルにシームレスに統合するパーソナライズ手法を提案する。
そこで我々はまず,事前学習した大文字エンコーダの埋め込み空間から,明確に定義されたセレブベースを解析・構築する。
提案したセレブベースを活用することで、カスタマイズされたモデルの新たなアイデンティティは、従来のパーソナライズ手法よりも優れた概念の組み合わせ能力を示す。
- 参考スコア(独自算出の注目度): 29.51292196851589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exquisite demand exists for customizing the pretrained large text-to-image
model, $\textit{e.g.}$, Stable Diffusion, to generate innovative concepts, such
as the users themselves. However, the newly-added concept from previous
customization methods often shows weaker combination abilities than the
original ones even given several images during training. We thus propose a new
personalization method that allows for the seamless integration of a unique
individual into the pre-trained diffusion model using just $\textbf{one facial
photograph}$ and only $\textbf{1024 learnable parameters}$ under $\textbf{3
minutes}$. So as we can effortlessly generate stunning images of this person in
any pose or position, interacting with anyone and doing anything imaginable
from text prompts. To achieve this, we first analyze and build a well-defined
celeb basis from the embedding space of the pre-trained large text encoder.
Then, given one facial photo as the target identity, we generate its own
embedding by optimizing the weight of this basis and locking all other
parameters. Empowered by the proposed celeb basis, the new identity in our
customized model showcases a better concept combination ability than previous
personalization methods. Besides, our model can also learn several new
identities at once and interact with each other where the previous
customization model fails to. The code will be released.
- Abstract(参考訳): ユーザー自身のような革新的な概念を生み出すために、事前訓練された大きなテキストから画像へのモデルである$\textit{e.g.}$、安定した拡散をカスタマイズするために必要な要求が存在する。
しかし、前回のカスタマイズ法から新たに追加された概念は、トレーニング中に複数の画像が与えられた場合よりも結合能力が弱い場合が多い。
そこで我々は,一意の個人を,単に$\textbf{one face photos}$と$\textbf{1024 learnable parameters}$を$\textbf{3 minutes}$とすることで,事前学習した拡散モデルにシームレスに統合することのできる,新たなパーソナライズ手法を提案する。
だから、どんなポーズや位置でも、この人の素晴らしい画像を作り、誰とでも対話し、テキストのプロンプトから想像できることは何でもできる。
そこで我々はまず,事前学習した大文字エンコーダの埋め込み空間から,明確に定義されたセレブベースを解析・構築する。
そして、対象とする顔写真が1つあるとすると、この基底の重みを最適化し、他の全てのパラメータをロックすることで、独自の埋め込みを生成する。
提案するセレブベースにより、カスタマイズされたモデルにおける新しいアイデンティティは、以前のパーソナライズ方法よりも優れたコンセプト組み合わせ能力を示しています。
さらに、我々のモデルは、同時にいくつかの新しいアイデンティティを学習し、以前のカスタマイズモデルが失敗した場合に相互に対話することもできます。
コードはリリースされます。
関連論文リスト
- JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Training-free Editioning of Text-to-Image Models [47.32550822603952]
テキスト・ツー・イメージ・モデルのための新しいタスク、すなわち、トレーニング不要のエディションを提案する。
我々は,リトレーニングを伴わずに,ベースとなるテキスト・ツー・イメージモデルのバリエーションを作成することを目的としている。
提案したエディションのパラダイムにより、サービスプロバイダはベースモデルを"cat edition"にカスタマイズすることができます。
論文 参考訳(メタデータ) (2024-05-27T11:40:50Z) - Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition [47.07564907486087]
近年のテキスト・画像拡散モデルでは,新規でパーソナライズされた概念を含む画像の学習と合成が可能となっている。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
論文 参考訳(メタデータ) (2024-02-23T18:55:09Z) - CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image
Personalization [56.892032386104006]
CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。
ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
論文 参考訳(メタデータ) (2023-11-24T17:55:10Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA [64.10981296843609]
近年のテクスト・ツー・イメージ・モデルの最先端のカスタマイズは,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされることが示されている。
安定拡散モデルのクロスアテンション層における自己規則化低ランク適応を連続的に行う新しい手法であるC-LoRAを提案する。
C-LoRAは、提案したテキスト・ツー・イメージの連続的なカスタマイズ設定のベースラインよりも優れるだけでなく、画像分類のためのリハーサル不要な連続的な学習設定において、新しい最先端の学習を実現することを示します。
論文 参考訳(メタデータ) (2023-04-12T17:59:41Z) - InstantBooth: Personalized Text-to-Image Generation without Test-Time
Finetuning [20.127745565621616]
InstantBoothは、事前訓練されたテキスト・ツー・イメージモデルに基づく新しいアプローチである。
本モデルでは,言語画像のアライメント,画像の忠実度,アイデンティティの保存に関する未確認概念に関する競合的な結果を生成することができる。
論文 参考訳(メタデータ) (2023-04-06T23:26:38Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - Multi-Concept Customization of Text-to-Image Diffusion [51.8642043743222]
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。
本モデルは,複数の新しい概念のバリエーションを生成し,既存の概念を新しい設定でシームレスに構成する。
論文 参考訳(メタデータ) (2022-12-08T18:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。