論文の概要: Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation
- arxiv url: http://arxiv.org/abs/2410.15618v2
- Date: Tue, 29 Oct 2024 22:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:21.145917
- Title: Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation
- Title(参考訳): 逆保存を伴う拡散モデルにおける望ましくない概念の消去
- Authors: Anh Bui, Long Vuong, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung,
- Abstract要約: 拡散モデルは、テキストから視覚的に印象的なコンテンツを生成するのに優れています。
本稿では,パラメータ変化によって最も影響を受ける概念を同定し,保存することを提案する。
安定拡散モデルを用いて本手法の有効性を実証し, 不要なコンテンツの除去において, 最先端の消去方法より優れていることを示す。
- 参考スコア(独自算出の注目度): 22.3077678575067
- License:
- Abstract: Diffusion models excel at generating visually striking content from text but can inadvertently produce undesirable or harmful content when trained on unfiltered internet data. A practical solution is to selectively removing target concepts from the model, but this may impact the remaining concepts. Prior approaches have tried to balance this by introducing a loss term to preserve neutral content or a regularization term to minimize changes in the model parameters, yet resolving this trade-off remains challenging. In this work, we propose to identify and preserving concepts most affected by parameter changes, termed as \textit{adversarial concepts}. This approach ensures stable erasure with minimal impact on the other concepts. We demonstrate the effectiveness of our method using the Stable Diffusion model, showing that it outperforms state-of-the-art erasure methods in eliminating unwanted content while maintaining the integrity of other unrelated elements. Our code is available at \url{https://github.com/tuananhbui89/Erasing-Adversarial-Preservation}.
- Abstract(参考訳): 拡散モデルは、テキストから視覚的に印象的なコンテンツを生成するのに優れています。
現実的な解決策は、モデルからターゲット概念を選択的に取り除くことであるが、これは残りの概念に影響を及ぼす可能性がある。
それまでのアプローチでは、中立的なコンテンツを維持する損失項や、モデルパラメータの変化を最小限に抑える正規化項を導入して、このバランスを保とうとしていたが、それでもこのトレードオフの解決は難しいままである。
本稿では,パラメータ変化に最も影響される概念を同定し,保存することを提案し,これを「textit{adversarial concept}」と呼ぶ。
このアプローチは、他の概念に最小限の影響で安定した消去を保証する。
安定拡散モデルを用いて本手法の有効性を実証し,他の非関連要素の整合性を維持しつつ,不要な内容の除去において最先端の消去手法より優れていることを示す。
私たちのコードは \url{https://github.com/tuananhbui89/Erasing-Adversarial-Preservation} で利用可能です。
関連論文リスト
- SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Pruning for Robust Concept Erasing in Diffusion Models [27.67237515704348]
概念消去のための新しいプルーニングベースの戦略を導入する。
本手法は, 除去対象概念に関連する重要なパラメータを選択的に抽出し, 概念関連ニューロンの感度を低下させる。
実験の結果, 逆入力に抵抗するモデルの能力は著しく向上した。
論文 参考訳(メタデータ) (2024-05-26T11:42:20Z) - Removing Undesirable Concepts in Text-to-Image Diffusion Models with Learnable Prompts [23.04942433104886]
本稿では,学習可能なプロンプトをモジュールに組み込むことにより,テキストから画像への拡散モデルから望ましくない概念を除去する手法を提案する。
この学習可能なプロンプトは追加記憶として働き、望ましくない概念の知識を捉える。
本研究では, 安定拡散モデルにおける本手法の有効性を実証し, 最先端消去法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T23:42:04Z) - All but One: Surgical Concept Erasing with Model Preservation in
Text-to-Image Diffusion Models [22.60023885544265]
大規模なデータセットには、性的に明示的な、著作権のある、または望ましくないコンテンツが含まれており、モデルがそれらを直接生成することができる。
拡散モデルにおける概念消去に取り組むために、ファインチューニングアルゴリズムが開発された。
これらの課題をすべて解決する新しいアプローチを提示します。
論文 参考訳(メタデータ) (2023-12-20T07:04:33Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Degeneration-Tuning: Using Scrambled Grid shield Unwanted Concepts from
Stable Diffusion [106.42918868850249]
SD重みから不要な概念の内容を保護するために,textbf Degeneration-Tuning (DT) という新しい手法を提案する。
この適応はモデルの重みのレベルで発生するため、DT後のSDは、CrutNetのような他の条件付き拡散フレームワークに移植して不要な概念を保護することができる。
論文 参考訳(メタデータ) (2023-08-02T03:34:44Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。