論文の概要: Unstable Unlearning: The Hidden Risk of Concept Resurgence in Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.08074v1
- Date: Thu, 10 Oct 2024 16:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 05:35:21.292578
- Title: Unstable Unlearning: The Hidden Risk of Concept Resurgence in Diffusion Models
- Title(参考訳): 不安定なアンラーニング:拡散モデルにおける概念復活の隠れたリスク
- Authors: Vinith M. Suriyakumar, Rohan Alur, Ayush Sekhari, Manish Raghavan, Ashia C. Wilson,
- Abstract要約: 一見無関係な画像にテキストから画像への拡散モデルを微調整することで、以前は「未学習」だった概念を「再学習」することができることを示す。
この結果から,インクリメンタルなモデル更新の脆弱さが浮き彫りになった。
- 参考スコア(独自算出の注目度): 13.479224197351673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models rely on massive, web-scale datasets. Training them from scratch is computationally expensive, and as a result, developers often prefer to make incremental updates to existing models. These updates often compose fine-tuning steps (to learn new concepts or improve model performance) with "unlearning" steps (to "forget" existing concepts, such as copyrighted works or explicit content). In this work, we demonstrate a critical and previously unknown vulnerability that arises in this paradigm: even under benign, non-adversarial conditions, fine-tuning a text-to-image diffusion model on seemingly unrelated images can cause it to "relearn" concepts that were previously "unlearned." We comprehensively investigate the causes and scope of this phenomenon, which we term concept resurgence, by performing a series of experiments which compose "mass concept erasure" (the current state of the art for unlearning in text-to-image diffusion models (Lu et al., 2024)) with subsequent fine-tuning of Stable Diffusion v1.4. Our findings underscore the fragility of composing incremental model updates, and raise serious new concerns about current approaches to ensuring the safety and alignment of text-to-image diffusion models.
- Abstract(参考訳): テキストから画像への拡散モデルは、大規模でWebスケールのデータセットに依存している。
スクラッチからトレーニングするのは計算コストが高く、結果として、開発者は既存のモデルをインクリメンタルに更新するのを好むことが多い。
これらの更新は、しばしば、(新しい概念を学習したり、モデルのパフォーマンスを改善するために)「学習しない」ステップで微調整のステップを構成する(著作権のある作品や明示的なコンテンツなど、既存の概念を「忘れる」ために)。
良質で非敵対的な条件下であっても、一見無関係な画像上でテキストから画像への拡散モデルを微調整することで、以前は「未学習」されていた概念を「再学習」することができる。
我々は,この現象の原因と範囲を包括的に検討し,「大量概念消去」(テキスト・画像拡散モデル(Lu et al , 2024)における未学習の現状)を構成する一連の実験を行い,その後,安定拡散 v1.4 の微調整を行った。
本研究は,インクリメンタルなモデル更新の脆弱さを浮き彫りにして,テキスト・ツー・イメージ拡散モデルの安全性と整合性を確保するための現在のアプローチに対する深刻な新たな懸念を提起するものである。
関連論文リスト
- Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - Towards Lifelong Few-Shot Customization of Text-to-Image Diffusion [50.26583654615212]
テキストと画像の拡散のための一生にわたる数ショットのカスタマイズは、最小限のデータで新しいタスクのための既存のモデルを継続的に一般化することを目的としている。
本研究では,破滅的な忘れる問題を,関連する概念と過去の概念の2つに分類し,分類する。
実データの追加やオリジナルの概念データのオフライン再生に頼っている既存の方法とは異なり,本手法では,新しい概念を学習しながら,事前知識の蒸留を行うことが可能である。
論文 参考訳(メタデータ) (2024-11-08T12:58:48Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective [20.263233740360022]
拡散モデルから概念を消去するアンラーニング手法が開発されている。
本論文は,ブラックボックス環境下での非学習的ロバスト性を探索するために,敵攻撃の伝達可能性を活用することを目的とする。
具体的には、異なる未学習モデル間での移動が可能な逆埋め込みを探索するために、逆探索戦略を用いる。
論文 参考訳(メタデータ) (2024-04-30T09:14:54Z) - Semantic Guidance Tuning for Text-To-Image Diffusion Models [3.3881449308956726]
本研究では,推論中の拡散モデルの誘導方向を変調する学習自由アプローチを提案する。
まず,素早い意味論を概念の集合に分解し,各概念に関するガイダンスの軌跡をモニタリングする。
そこで本研究では,モデルが発散する概念に対して,誘導方向を制御するための手法を考案した。
論文 参考訳(メタデータ) (2023-12-26T09:02:17Z) - All but One: Surgical Concept Erasing with Model Preservation in
Text-to-Image Diffusion Models [22.60023885544265]
大規模なデータセットには、性的に明示的な、著作権のある、または望ましくないコンテンツが含まれており、モデルがそれらを直接生成することができる。
拡散モデルにおける概念消去に取り組むために、ファインチューニングアルゴリズムが開発された。
これらの課題をすべて解決する新しいアプローチを提示します。
論文 参考訳(メタデータ) (2023-12-20T07:04:33Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Understanding and Mitigating Copying in Diffusion Models [53.03978584040557]
安定拡散のような拡散モデルによって生成される画像は、ますます広まっている。
最近の研究や訴訟でも、これらのモデルがトレーニングデータを複製する傾向にあることが示されている。
論文 参考訳(メタデータ) (2023-05-31T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。