Fugu-MT 論文翻訳(概要): Multi-Concept Customization of Text-to-Image Diffusion

論文の概要: Multi-Concept Customization of Text-to-Image Diffusion

arxiv url: http://arxiv.org/abs/2212.04488v2
Date: Tue, 20 Jun 2023 16:26:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 04:49:46.566676
Title: Multi-Concept Customization of Text-to-Image Diffusion
Title（参考訳）: テキストから画像への拡散のマルチコンセプタカスタマイズ
Authors: Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu
Abstract要約: 既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。本モデルは,複数の新しい概念のバリエーションを生成し,既存の概念を新しい設定でシームレスに構成する。
参考スコア（独自算出の注目度）: 51.8642043743222
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While generative models produce high-quality images of concepts learned from a large-scale database, a user often wishes to synthesize instantiations of their own concepts (for example, their family, pets, or items). Can we teach a model to quickly acquire a new concept, given a few examples? Furthermore, can we compose multiple new concepts together? We propose Custom Diffusion, an efficient method for augmenting existing text-to-image models. We find that only optimizing a few parameters in the text-to-image conditioning mechanism is sufficiently powerful to represent new concepts while enabling fast tuning (~6 minutes). Additionally, we can jointly train for multiple concepts or combine multiple fine-tuned models into one via closed-form constrained optimization. Our fine-tuned model generates variations of multiple new concepts and seamlessly composes them with existing concepts in novel settings. Our method outperforms or performs on par with several baselines and concurrent works in both qualitative and quantitative evaluations while being memory and computationally efficient.
Abstract（参考訳）: 生成モデルは大規模なデータベースから学習した概念の高品質なイメージを生成するが、ユーザーは自分の概念のインスタンス化(家族、ペット、アイテムなど)を合成したい場合が多い。いくつか例を挙げると、モデルに新しい概念を素早く得るように教えられるだろうか? さらに、複数の新しい概念を一緒に構成できるだろうか? 既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。テキスト・ツー・イメージ・コンディショニング機構のパラメータを最適化するだけで新しい概念を表現でき、高速なチューニング(約6分)が可能であることがわかった。さらに、複数のコンセプトを共同でトレーニングしたり、クローズドフォーム制約付き最適化によって複数の微調整モデルを1つに組み合わせることも可能です。我々の微調整モデルは、複数の新しい概念のバリエーションを生成し、新しい設定で既存の概念とシームレスに構成する。本手法は,記憶的かつ計算効率を保ちつつ,定性的および定量的な評価において,複数のベースラインおよび同時作業に匹敵する性能を有する。

関連論文リスト

LoRACLR: Contrastive Adaptation for Customization of Diffusion Models [62.70911549650579]
LoRACLRは、複数のLoRAモデルを単一の統一モデルにマージする、マルチコンセプト画像生成の新しいアプローチである。 LoRACLRは、これらのモデルの重み空間を整列し、マージするために対照的な目的を使い、干渉を最小限にしながら互換性を確保する。本結果は,複数の概念を正確にマージし,パーソナライズされた画像生成能力を向上する上で,LoRACLRの有効性を強調した。
論文参考訳（メタデータ） (2024-12-12T18:59:55Z)
FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文参考訳（メタデータ） (2024-05-22T17:53:38Z)
MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。 MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文参考訳（メタデータ） (2024-04-08T07:59:04Z)
Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T07:28:37Z)
Orthogonal Adaptation for Modular Customization of Diffusion Models [39.62438974450659]
我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
論文参考訳（メタデータ） (2023-12-05T02:17:48Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文参考訳（メタデータ） (2023-02-23T18:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。