論文の概要: Multi-Concept Customization of Text-to-Image Diffusion
- arxiv url: http://arxiv.org/abs/2212.04488v1
- Date: Thu, 8 Dec 2022 18:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:14:25.376137
- Title: Multi-Concept Customization of Text-to-Image Diffusion
- Title(参考訳): テキストから画像への拡散のマルチコンセプタカスタマイズ
- Authors: Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan
Zhu
- Abstract要約: 既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。
我々のモデルは、複数の新しい概念のバリエーションを生成し、新しい設定で既存の概念とシームレスに構成する。
- 参考スコア(独自算出の注目度): 51.8642043743222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While generative models produce high-quality images of concepts learned from
a large-scale database, a user often wishes to synthesize instantiations of
their own concepts (for example, their family, pets, or items). Can we teach a
model to quickly acquire a new concept, given a few examples? Furthermore, can
we compose multiple new concepts together? We propose Custom Diffusion, an
efficient method for augmenting existing text-to-image models. We find that
only optimizing a few parameters in the text-to-image conditioning mechanism is
sufficiently powerful to represent new concepts while enabling fast tuning (~6
minutes). Additionally, we can jointly train for multiple concepts or combine
multiple fine-tuned models into one via closed-form constrained optimization.
Our fine-tuned model generates variations of multiple, new concepts and
seamlessly composes them with existing concepts in novel settings. Our method
outperforms several baselines and concurrent works, regarding both qualitative
and quantitative evaluations, while being memory and computationally efficient.
- Abstract(参考訳): 生成モデルは大規模なデータベースから学習した概念の高品質なイメージを生成するが、ユーザーは自分の概念のインスタンス化(家族、ペット、アイテムなど)を合成したい場合が多い。
いくつか例を挙げると、モデルに新しい概念を素早く得るように教えられるだろうか?
さらに、複数の新しい概念を一緒に構成できるだろうか?
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構のパラメータを最適化するだけで新しい概念を表現でき、高速なチューニング(約6分)が可能であることがわかった。
さらに、複数のコンセプトを共同でトレーニングしたり、クローズドフォーム制約付き最適化によって複数の微調整モデルを1つに組み合わせることも可能です。
我々の微調整モデルは、複数の新しい概念のバリエーションを生成し、新しい設定で既存の概念とシームレスに構成する。
本手法は,数種類のベースラインと並行処理を上回り,定性的および定量的評価を両立させつつ,メモリ効率と計算効率を両立させる。
関連論文リスト
- FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。
MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。
視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Orthogonal Adaptation for Modular Customization of Diffusion Models [39.62438974450659]
我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。
直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
論文 参考訳(メタデータ) (2023-12-05T02:17:48Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。