論文の概要: Continual Diffusion: Continual Customization of Text-to-Image Diffusion
with C-LoRA
- arxiv url: http://arxiv.org/abs/2304.06027v1
- Date: Wed, 12 Apr 2023 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 13:57:44.332880
- Title: Continual Diffusion: Continual Customization of Text-to-Image Diffusion
with C-LoRA
- Title(参考訳): 連続拡散:C-LoRAによるテキスト間拡散の連続的カスタマイズ
- Authors: James Seale Smith, Yen-Chang Hsu, Lingyu Zhang, Ting Hua, Zsolt Kira,
Yilin Shen, Hongxia Jin
- Abstract要約: 近年のテクスト・ツー・イメージ・モデルの最先端のカスタマイズは,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされることが示されている。
安定拡散モデルのクロスアテンション層における自己規則化低ランク適応を連続的に行う新しい手法であるC-LoRAを提案する。
C-LoRAは、提案したテキスト・ツー・イメージの連続的なカスタマイズ設定のベースラインよりも優れるだけでなく、画像分類のためのリハーサル不要な連続的な学習設定において、新しい最先端の学習を実現することを示します。
- 参考スコア(独自算出の注目度): 73.25715057309768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works demonstrate a remarkable ability to customize text-to-image
diffusion models while only providing a few example images. What happens if you
try to customize such models using multiple, fine-grained concepts in a
sequential (i.e., continual) manner? In our work, we show that recent
state-of-the-art customization of text-to-image models suffer from catastrophic
forgetting when new concepts arrive sequentially. Specifically, when adding a
new concept, the ability to generate high quality images of past, similar
concepts degrade. To circumvent this forgetting, we propose a new method,
C-LoRA, composed of a continually self-regularized low-rank adaptation in cross
attention layers of the popular Stable Diffusion model. Furthermore, we use
customization prompts which do not include the word of the customized object
(i.e., "person" for a human face dataset) and are initialized as completely
random embeddings. Importantly, our method induces only marginal additional
parameter costs and requires no storage of user data for replay. We show that
C-LoRA not only outperforms several baselines for our proposed setting of
text-to-image continual customization, which we refer to as Continual
Diffusion, but that we achieve a new state-of-the-art in the well-established
rehearsal-free continual learning setting for image classification. The high
achieving performance of C-LoRA in two separate domains positions it as a
compelling solution for a wide range of applications, and we believe it has
significant potential for practical impact.
- Abstract(参考訳): 最近の研究は、サンプル画像のみを提供しながら、テキストから画像への拡散モデルをカスタマイズする素晴らしい能力を示している。
シーケンシャルな(すなわち連続的な)方法で、複数のきめ細かい概念を使って、これらのモデルをカスタマイズしようとするとどうなるだろうか?
本稿では,テキストから画像へのモデルの最新のカスタマイズは,新しい概念が順次現れると壊滅的な忘れがちであることを示す。
特に、新しい概念を追加するとき、過去の高品質なイメージを生成する能力は、同様の概念は劣化する。
そこで本研究では,従来の安定拡散モデルを用いたクロスアテンション層における自己規則化低ランク適応を連続的に行うC-LoRAを提案する。
さらに、カスタマイズされたオブジェクト(例えば、人間の顔データセットの「人」)の単語を含まないカスタマイズプロンプトを、完全にランダムな埋め込みとして初期化する。
重要なこととして,本手法は限界余剰パラメータコストのみを誘導し,再生にユーザデータの保存を必要としない。
c-loraは,提案するテキスト・画像間連続型カスタマイズのベースラインを,連続的拡散と呼ぶものに上回っているだけでなく,画像分類のためのリハーサルフリー連続型学習環境において新たな最先端を実現する。
C-LoRAの2つの異なる領域における高い性能は、それを広範囲のアプリケーションにとって魅力的なソリューションとして位置づけている。
関連論文リスト
- Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent
Diffusion Models for Virtual Try-All [4.191273360964305]
ディフューズ・トゥ・チョイス(Diffuse to Choose)は、高速推論と高忠実度詳細の保持を効率的にバランスさせる、拡散に基づく新しい塗布モデルである。
Diffuse to Chooseは既存のゼロショット拡散塗装法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-24T20:25:48Z) - Continual Diffusion with STAMINA: STack-And-Mask INcremental Adapters [72.18914218115388]
近年の研究では、テキストから画像への拡散モデルを複数の微細な概念に逐次的にカスタマイズできることが示されている。
我々は、新しいタスクを学習する能力が、長いシーケンスで飽和に達することを示す。
本稿では,低ランクの注意マーク付きアダプタとカスタマイズトークンからなるSTAMINA(STack-And-Mask Incremental Adapters)を提案する。
論文 参考訳(メタデータ) (2023-11-30T18:04:21Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - SVDiff: Compact Parameter Space for Diffusion Fine-Tuning [19.978410014103435]
パーソナライズのための既存のテキスト・画像拡散モデルにおける制約に対処する新しいアプローチを提案する。
本手法は, 重み行列の特異値の微調整を伴い, コンパクトかつ効率的なパラメータ空間を導出する。
また、マルチオブジェクト画像生成の質を高めるためのカット・ミクス・Unmixデータ拡張手法と、簡単なテキストベースの画像編集フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:45:02Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。