論文の概要: Towards Lifelong Few-Shot Customization of Text-to-Image Diffusion
- arxiv url: http://arxiv.org/abs/2411.05544v1
- Date: Fri, 08 Nov 2024 12:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:20.727980
- Title: Towards Lifelong Few-Shot Customization of Text-to-Image Diffusion
- Title(参考訳): テキスト・画像拡散の生涯的Few-Shotカスタマイズに向けて
- Authors: Nan Song, Xiaofeng Yang, Ze Yang, Guosheng Lin,
- Abstract要約: テキストと画像の拡散のための一生にわたる数ショットのカスタマイズは、最小限のデータで新しいタスクのための既存のモデルを継続的に一般化することを目的としている。
本研究では,破滅的な忘れる問題を,関連する概念と過去の概念の2つに分類し,分類する。
実データの追加やオリジナルの概念データのオフライン再生に頼っている既存の方法とは異なり,本手法では,新しい概念を学習しながら,事前知識の蒸留を行うことが可能である。
- 参考スコア(独自算出の注目度): 50.26583654615212
- License:
- Abstract: Lifelong few-shot customization for text-to-image diffusion aims to continually generalize existing models for new tasks with minimal data while preserving old knowledge. Current customization diffusion models excel in few-shot tasks but struggle with catastrophic forgetting problems in lifelong generations. In this study, we identify and categorize the catastrophic forgetting problems into two folds: relevant concepts forgetting and previous concepts forgetting. To address these challenges, we first devise a data-free knowledge distillation strategy to tackle relevant concepts forgetting. Unlike existing methods that rely on additional real data or offline replay of original concept data, our approach enables on-the-fly knowledge distillation to retain the previous concepts while learning new ones, without accessing any previous data. Second, we develop an In-Context Generation (ICGen) paradigm that allows the diffusion model to be conditioned upon the input vision context, which facilitates the few-shot generation and mitigates the issue of previous concepts forgetting. Extensive experiments show that the proposed Lifelong Few-Shot Diffusion (LFS-Diffusion) method can produce high-quality and accurate images while maintaining previously learned knowledge.
- Abstract(参考訳): テキストと画像の拡散のための一生にわたる数ショットのカスタマイズは、古い知識を保ちながら、最小限のデータで新しいタスクのための既存のモデルを継続的に一般化することを目的としている。
現在のカスタマイズ拡散モデルは、数ショットのタスクでは優れているが、生涯の世代において破滅的な忘れる問題に悩まされている。
本研究では,破滅的な忘れる問題を,関連する概念と過去の概念の2つに分類し,分類する。
これらの課題に対処するために、我々はまず、関連する概念を忘れないように、データフリーな知識蒸留戦略を考案する。
実データの追加やオリジナルのコンセプトデータのオフライン再生に頼っている既存の方法とは異なり,本手法では,既存のデータにアクセスせずに,新しい概念を学習しながら,事前知識の蒸留を行うことができる。
In-Context Generation(ICGen)パラダイムを開発し、インプット・ビジョン・コンテキストに拡散モデルを条件付けすることで、数ショット生成を容易にし、過去の概念を忘れる問題を緩和する。
広汎な実験により,提案手法は,これまでに学習した知識を維持しつつ,高品質で正確な画像を生成することができることがわかった。
関連論文リスト
- How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - Unstable Unlearning: The Hidden Risk of Concept Resurgence in Diffusion Models [13.479224197351673]
一見無関係な画像にテキストから画像への拡散モデルを微調整することで、以前は「未学習」だった概念を「再学習」することができることを示す。
この結果から,インクリメンタルなモデル更新の脆弱さが浮き彫りになった。
論文 参考訳(メタデータ) (2024-10-10T16:10:27Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.091446060893638]
本稿では,拡散モデルにおける非学習概念のための概念領域補正フレームワークを提案する。
直感的概念とアンカー的概念の出力領域を敵対的訓練によって整合させることにより、未学習結果の一般化性を高める。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning [0.0]
本稿では,数発のアンラーニングを用いてテキストエンコーダを更新する新しい概念消去手法を提案する。
提案手法は10秒以内に概念を消去し,概念の消去をこれまで以上に容易に行えるようにする。
論文 参考訳(メタデータ) (2024-05-12T14:01:05Z) - Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective [20.263233740360022]
拡散モデルから概念を消去するアンラーニング手法が開発されている。
本論文は,ブラックボックス環境下での非学習的ロバスト性を探索するために,敵攻撃の伝達可能性を活用することを目的とする。
具体的には、異なる未学習モデル間での移動が可能な逆埋め込みを探索するために、逆探索戦略を用いる。
論文 参考訳(メタデータ) (2024-04-30T09:14:54Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。