論文の概要: Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation
- arxiv url: http://arxiv.org/abs/2410.15618v1
- Date: Mon, 21 Oct 2024 03:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:19:59.318077
- Title: Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation
- Title(参考訳): 逆保存を伴う拡散モデルにおける望ましくない概念の消去
- Authors: Anh Bui, Long Vuong, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung,
- Abstract要約: 拡散モデルは、テキストから視覚的に印象的なコンテンツを生成するのに優れています。
本稿では,パラメータ変化によって最も影響を受ける概念を同定し,保存することを提案する。
安定拡散モデルを用いて本手法の有効性を実証し, 不要なコンテンツの除去において, 最先端の消去方法より優れていることを示す。
- 参考スコア(独自算出の注目度): 22.3077678575067
- License:
- Abstract: Diffusion models excel at generating visually striking content from text but can inadvertently produce undesirable or harmful content when trained on unfiltered internet data. A practical solution is to selectively removing target concepts from the model, but this may impact the remaining concepts. Prior approaches have tried to balance this by introducing a loss term to preserve neutral content or a regularization term to minimize changes in the model parameters, yet resolving this trade-off remains challenging. In this work, we propose to identify and preserving concepts most affected by parameter changes, termed as \textit{adversarial concepts}. This approach ensures stable erasure with minimal impact on the other concepts. We demonstrate the effectiveness of our method using the Stable Diffusion model, showing that it outperforms state-of-the-art erasure methods in eliminating unwanted content while maintaining the integrity of other unrelated elements. Our code is available at \url{https://github.com/tuananhbui89/Erasing-Adversarial-Preservation}.
- Abstract(参考訳): 拡散モデルは、テキストから視覚的に印象的なコンテンツを生成するのに優れています。
現実的な解決策は、モデルからターゲット概念を選択的に取り除くことであるが、これは残りの概念に影響を及ぼす可能性がある。
それまでのアプローチでは、中立的なコンテンツを維持する損失項や、モデルパラメータの変化を最小限に抑える正規化項を導入して、このバランスを保とうとしていたが、それでもこのトレードオフの解決は難しいままである。
本稿では,パラメータ変化に最も影響される概念を同定し,保存することを提案し,これを「textit{adversarial concept}」と呼ぶ。
このアプローチは、他の概念に最小限の影響で安定した消去を保証する。
安定拡散モデルを用いて本手法の有効性を実証し,他の非関連要素の整合性を維持しつつ,不要な内容の除去において最先端の消去手法より優れていることを示す。
私たちのコードは \url{https://github.com/tuananhbui89/Erasing-Adversarial-Preservation} で利用可能です。
関連論文リスト
- Fantastic Targets for Concept Erasure in Diffusion Models and Where To Find Them [21.386640828092524]
概念消去は拡散モデルにおける有害なコンテンツ生成のリスクを軽減するための有望な手法として現れてきた。
本稿では,各望ましくない概念に合わせて最適な目標概念を動的に選択するAdaptive Guided Erasure (AGE)法を提案する。
その結果, AGEは, 有効消去性能を維持しつつ, 無関係な概念を保存し, 最先端の消去手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-31T08:17:23Z) - SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders [4.013156524547073]
拡散モデルは、必然的に有害または望ましくないコンテンツを生成できる。
最近の機械学習アプローチは潜在的な解決策を提供するが、透明性を欠いていることが多い。
スパースオートエンコーダによって学習された特徴を活用する新しい手法であるSAeUronを紹介する。
論文 参考訳(メタデータ) (2025-01-29T23:29:47Z) - DuMo: Dual Encoder Modulation Network for Precise Concept Erasure [75.05165577219425]
非ターゲット概念に対する最小限の障害を伴う不適切なターゲット概念の正確な消去を実現するDuMo(Dual Encoder Modulation Network)を提案する。
提案手法は, 明示的コンテンツ消去, カートゥーン概念除去, アーティスティックスタイル消去における最先端性能を実現し, 代替手法よりも明らかに優れている。
論文 参考訳(メタデータ) (2025-01-02T07:47:34Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Hiding and Recovering Knowledge in Text-to-Image Diffusion Models via Learnable Prompts [23.04942433104886]
我々は、望ましくない概念を公開ユーザにとってアクセスし難いものにする、新しいコンセプトハイディングアプローチを導入する。
モデルから知識を完全に消去する代わりに、学習可能なプロンプトをクロスアテンションモジュールに組み込む。
これにより、フレキシブルなアクセス制御が可能になります -- 望ましくないコンテンツが簡単に生成されないようにし、再保存するオプションを保持します。
論文 参考訳(メタデータ) (2024-03-18T23:42:04Z) - All but One: Surgical Concept Erasing with Model Preservation in
Text-to-Image Diffusion Models [22.60023885544265]
大規模なデータセットには、性的に明示的な、著作権のある、または望ましくないコンテンツが含まれており、モデルがそれらを直接生成することができる。
拡散モデルにおける概念消去に取り組むために、ファインチューニングアルゴリズムが開発された。
これらの課題をすべて解決する新しいアプローチを提示します。
論文 参考訳(メタデータ) (2023-12-20T07:04:33Z) - Degeneration-Tuning: Using Scrambled Grid shield Unwanted Concepts from
Stable Diffusion [106.42918868850249]
SD重みから不要な概念の内容を保護するために,textbf Degeneration-Tuning (DT) という新しい手法を提案する。
この適応はモデルの重みのレベルで発生するため、DT後のSDは、CrutNetのような他の条件付き拡散フレームワークに移植して不要な概念を保護することができる。
論文 参考訳(メタデータ) (2023-08-02T03:34:44Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。