論文の概要: Continual Diffusion: Continual Customization of Text-to-Image Diffusion
with C-LoRA
- arxiv url: http://arxiv.org/abs/2304.06027v1
- Date: Wed, 12 Apr 2023 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 13:57:44.332880
- Title: Continual Diffusion: Continual Customization of Text-to-Image Diffusion
with C-LoRA
- Title(参考訳): 連続拡散:C-LoRAによるテキスト間拡散の連続的カスタマイズ
- Authors: James Seale Smith, Yen-Chang Hsu, Lingyu Zhang, Ting Hua, Zsolt Kira,
Yilin Shen, Hongxia Jin
- Abstract要約: 近年のテクスト・ツー・イメージ・モデルの最先端のカスタマイズは,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされることが示されている。
安定拡散モデルのクロスアテンション層における自己規則化低ランク適応を連続的に行う新しい手法であるC-LoRAを提案する。
C-LoRAは、提案したテキスト・ツー・イメージの連続的なカスタマイズ設定のベースラインよりも優れるだけでなく、画像分類のためのリハーサル不要な連続的な学習設定において、新しい最先端の学習を実現することを示します。
- 参考スコア(独自算出の注目度): 73.25715057309768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works demonstrate a remarkable ability to customize text-to-image
diffusion models while only providing a few example images. What happens if you
try to customize such models using multiple, fine-grained concepts in a
sequential (i.e., continual) manner? In our work, we show that recent
state-of-the-art customization of text-to-image models suffer from catastrophic
forgetting when new concepts arrive sequentially. Specifically, when adding a
new concept, the ability to generate high quality images of past, similar
concepts degrade. To circumvent this forgetting, we propose a new method,
C-LoRA, composed of a continually self-regularized low-rank adaptation in cross
attention layers of the popular Stable Diffusion model. Furthermore, we use
customization prompts which do not include the word of the customized object
(i.e., "person" for a human face dataset) and are initialized as completely
random embeddings. Importantly, our method induces only marginal additional
parameter costs and requires no storage of user data for replay. We show that
C-LoRA not only outperforms several baselines for our proposed setting of
text-to-image continual customization, which we refer to as Continual
Diffusion, but that we achieve a new state-of-the-art in the well-established
rehearsal-free continual learning setting for image classification. The high
achieving performance of C-LoRA in two separate domains positions it as a
compelling solution for a wide range of applications, and we believe it has
significant potential for practical impact.
- Abstract(参考訳): 最近の研究は、サンプル画像のみを提供しながら、テキストから画像への拡散モデルをカスタマイズする素晴らしい能力を示している。
シーケンシャルな(すなわち連続的な)方法で、複数のきめ細かい概念を使って、これらのモデルをカスタマイズしようとするとどうなるだろうか?
本稿では,テキストから画像へのモデルの最新のカスタマイズは,新しい概念が順次現れると壊滅的な忘れがちであることを示す。
特に、新しい概念を追加するとき、過去の高品質なイメージを生成する能力は、同様の概念は劣化する。
そこで本研究では,従来の安定拡散モデルを用いたクロスアテンション層における自己規則化低ランク適応を連続的に行うC-LoRAを提案する。
さらに、カスタマイズされたオブジェクト(例えば、人間の顔データセットの「人」)の単語を含まないカスタマイズプロンプトを、完全にランダムな埋め込みとして初期化する。
重要なこととして,本手法は限界余剰パラメータコストのみを誘導し,再生にユーザデータの保存を必要としない。
c-loraは,提案するテキスト・画像間連続型カスタマイズのベースラインを,連続的拡散と呼ぶものに上回っているだけでなく,画像分類のためのリハーサルフリー連続型学習環境において新たな最先端を実現する。
C-LoRAの2つの異なる領域における高い性能は、それを広範囲のアプリケーションにとって魅力的なソリューションとして位置づけている。
関連論文リスト
- Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models [29.083402085790016]
本稿では,事前学習した拡散モデルのサンプル軌跡を,参照集合外に落下する画像上に着陸させる手法を提案する。
生成軌道全体にわたって拡散SDEに反発項を追加することでこれを実現できる。
一般的な拡散モデルにSPELLを追加することで、FIDにわずかに影響を与えながら多様性が向上し、最近のトレーニングフリーの多様性手法よりも比較的優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-08T13:26:32Z) - Mining Your Own Secrets: Diffusion Classifier Scores for Continual Personalization of Text-to-Image Diffusion Models [39.46152582128077]
現実の世界では、ユーザーは複数の概念のモデルを一度に1つずつパーソナライズしたいと考えるかもしれない。
ほとんどのパーソナライズ手法は、新しい概念の獲得と以前の概念の維持のバランスを見つけることができない。
本稿では,テキスト・画像拡散モデルのパラメータ空間と関数空間の正規化を提案する。
論文 参考訳(メタデータ) (2024-10-01T13:54:29Z) - Continual Diffusion with STAMINA: STack-And-Mask INcremental Adapters [67.28751868277611]
近年の研究では、テキストから画像への拡散モデルを複数の微細な概念に逐次的にカスタマイズできることが示されている。
我々は、新しいタスクを学習する能力が、長いシーケンスで飽和に達することを示す。
本稿では,低ランクの注意マーク付きアダプタとカスタマイズトークンからなるSTAMINA(STack-And-Mask Incremental Adapters)を提案する。
論文 参考訳(メタデータ) (2023-11-30T18:04:21Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。