論文の概要: Mining Your Own Secrets: Diffusion Classifier Scores for Continual Personalization of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.00700v2
- Date: Wed, 2 Oct 2024 06:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:25:20.077890
- Title: Mining Your Own Secrets: Diffusion Classifier Scores for Continual Personalization of Text-to-Image Diffusion Models
- Title(参考訳): 自分自身の秘密をマイニングする: テキストと画像の拡散モデルの連続的パーソナライズのための拡散分類器スコア
- Authors: Saurav Jha, Shiqi Yang, Masato Ishii, Mengjie Zhao, Christian Simon, Muhammad Jehanzeb Mirza, Dong Gong, Lina Yao, Shusuke Takahashi, Yuki Mitsufuji,
- Abstract要約: 現実の世界では、ユーザーは複数の概念のモデルを一度に1つずつパーソナライズしたいと考えるかもしれない。
ほとんどのパーソナライズ手法は、新しい概念の獲得と以前の概念の維持のバランスを見つけることができない。
本稿では,テキスト・画像拡散モデルのパラメータ空間と関数空間の正規化を提案する。
- 参考スコア(独自算出の注目度): 39.46152582128077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized text-to-image diffusion models have grown popular for their ability to efficiently acquire a new concept from user-defined text descriptions and a few images. However, in the real world, a user may wish to personalize a model on multiple concepts but one at a time, with no access to the data from previous concepts due to storage/privacy concerns. When faced with this continual learning (CL) setup, most personalization methods fail to find a balance between acquiring new concepts and retaining previous ones -- a challenge that continual personalization (CP) aims to solve. Inspired by the successful CL methods that rely on class-specific information for regularization, we resort to the inherent class-conditioned density estimates, also known as diffusion classifier (DC) scores, for continual personalization of text-to-image diffusion models. Namely, we propose using DC scores for regularizing the parameter-space and function-space of text-to-image diffusion models, to achieve continual personalization. Using several diverse evaluation setups, datasets, and metrics, we show that our proposed regularization-based CP methods outperform the state-of-the-art C-LoRA, and other baselines. Finally, by operating in the replay-free CL setup and on low-rank adapters, our method incurs zero storage and parameter overhead, respectively, over the state-of-the-art.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージの拡散モデルは、ユーザ定義のテキスト記述といくつかの画像から新しい概念を効率的に取得できる能力で人気が高まっている。
しかし、現実の世界では、ユーザーは複数の概念に基づいてモデルをパーソナライズしたいと願うが、ストレージ/プライバシの懸念により、以前の概念からのデータにアクセスできない。
この継続的学習(CL)のセットアップに直面した場合、ほとんどのパーソナライズ手法は、新しい概念の獲得と以前の概念の維持のバランスを見つけることができず、これは継続的パーソナライズ(CP)が解決しようとしている課題である。
正規化のためのクラス固有情報に依存するCL法に着想を得て,テキスト・ツー・イメージ拡散モデルの連続的パーソナライズのために,拡散分類器(DC)スコアと呼ばれる固有クラス条件密度推定を利用する。
そこで本研究では,連続的なパーソナライゼーションを実現するために,テキスト間拡散モデルのパラメータ空間と関数空間を正規化するためのDCスコアを提案する。
いくつかの多様な評価設定、データセット、メトリクスを用いて、提案した正規化ベースのCP手法が、最先端のC-LoRAや他のベースラインよりも優れていることを示す。
最後に,リプレイフリーのCLセットアップと低ランクのアダプタで動作することにより,各手法は,最先端技術上で,ゼロストレージとパラメータオーバヘッドを発生させる。
関連論文リスト
- Hollowed Net for On-Device Personalization of Text-to-Image Diffusion Models [51.3915762595891]
本稿では、デバイス上での主観的生成のための効率的なLoRAに基づくパーソナライズ手法を提案する。
提案手法はHollowed Netと呼ばれ,拡散U-Netのアーキテクチャを変更することにより,微調整時のメモリ効率を向上させる。
論文 参考訳(メタデータ) (2024-11-02T08:42:48Z) - Continual Diffusion with STAMINA: STack-And-Mask INcremental Adapters [67.28751868277611]
近年の研究では、テキストから画像への拡散モデルを複数の微細な概念に逐次的にカスタマイズできることが示されている。
我々は、新しいタスクを学習する能力が、長いシーケンスで飽和に達することを示す。
本稿では,低ランクの注意マーク付きアダプタとカスタマイズトークンからなるSTAMINA(STack-And-Mask Incremental Adapters)を提案する。
論文 参考訳(メタデータ) (2023-11-30T18:04:21Z) - CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image
Personalization [56.892032386104006]
CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。
ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
論文 参考訳(メタデータ) (2023-11-24T17:55:10Z) - Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA [64.10981296843609]
近年のテクスト・ツー・イメージ・モデルの最先端のカスタマイズは,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされることが示されている。
安定拡散モデルのクロスアテンション層における自己規則化低ランク適応を連続的に行う新しい手法であるC-LoRAを提案する。
C-LoRAは、提案したテキスト・ツー・イメージの連続的なカスタマイズ設定のベースラインよりも優れるだけでなく、画像分類のためのリハーサル不要な連続的な学習設定において、新しい最先端の学習を実現することを示します。
論文 参考訳(メタデータ) (2023-04-12T17:59:41Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。