論文の概要: Multi-Concept Customization of Text-to-Image Diffusion
- arxiv url: http://arxiv.org/abs/2212.04488v1
- Date: Thu, 8 Dec 2022 18:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:14:25.376137
- Title: Multi-Concept Customization of Text-to-Image Diffusion
- Title(参考訳): テキストから画像への拡散のマルチコンセプタカスタマイズ
- Authors: Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan
Zhu
- Abstract要約: 既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。
我々のモデルは、複数の新しい概念のバリエーションを生成し、新しい設定で既存の概念とシームレスに構成する。
- 参考スコア(独自算出の注目度): 51.8642043743222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While generative models produce high-quality images of concepts learned from
a large-scale database, a user often wishes to synthesize instantiations of
their own concepts (for example, their family, pets, or items). Can we teach a
model to quickly acquire a new concept, given a few examples? Furthermore, can
we compose multiple new concepts together? We propose Custom Diffusion, an
efficient method for augmenting existing text-to-image models. We find that
only optimizing a few parameters in the text-to-image conditioning mechanism is
sufficiently powerful to represent new concepts while enabling fast tuning (~6
minutes). Additionally, we can jointly train for multiple concepts or combine
multiple fine-tuned models into one via closed-form constrained optimization.
Our fine-tuned model generates variations of multiple, new concepts and
seamlessly composes them with existing concepts in novel settings. Our method
outperforms several baselines and concurrent works, regarding both qualitative
and quantitative evaluations, while being memory and computationally efficient.
- Abstract(参考訳): 生成モデルは大規模なデータベースから学習した概念の高品質なイメージを生成するが、ユーザーは自分の概念のインスタンス化(家族、ペット、アイテムなど)を合成したい場合が多い。
いくつか例を挙げると、モデルに新しい概念を素早く得るように教えられるだろうか?
さらに、複数の新しい概念を一緒に構成できるだろうか?
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構のパラメータを最適化するだけで新しい概念を表現でき、高速なチューニング(約6分)が可能であることがわかった。
さらに、複数のコンセプトを共同でトレーニングしたり、クローズドフォーム制約付き最適化によって複数の微調整モデルを1つに組み合わせることも可能です。
我々の微調整モデルは、複数の新しい概念のバリエーションを生成し、新しい設定で既存の概念とシームレスに構成する。
本手法は,数種類のベースラインと並行処理を上回り,定性的および定量的評価を両立させつつ,メモリ効率と計算効率を両立させる。
関連論文リスト
- Visual Concept-driven Image Generation with Text-to-Image Diffusion
Model [69.89451490936652]
テキスト・ツー・イメージ(TTI)モデルでは、複雑で想像力のあるシーンの高解像度画像を生成するという印象的な結果が示されている。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - Orthogonal Adaptation for Modular Customization of Diffusion Models [42.51086622161094]
我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。
直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
論文 参考訳(メタデータ) (2023-12-05T02:17:48Z) - ConceptLab: Creative Concept Generation using VLM-Guided Diffusion Prior
Constraints [56.824187892204314]
我々は創造的なテキスト・画像生成の課題を提示し、幅広いカテゴリの新しいメンバーを創り出そうとする。
本稿では, 先行拡散の出力空間上での最適化プロセスとして, 創造的生成問題を定式化できることを示す。
我々は、最適化問題に新たな制約を適応的に付加する質問応答型視覚言語モデル(VLM)を導入し、よりユニークな生成物を発見するようモデルに促す。
論文 参考訳(メタデータ) (2023-08-03T17:04:41Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。