論文の概要: Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.15234v3
- Date: Wed, 09 Oct 2024 16:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:28:44.785759
- Title: Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models
- Title(参考訳): 拡散モデルにおけるロバスト概念消去のための逆学習による防御的アンラーニング
- Authors: Yimeng Zhang, Xin Chen, Jinghan Jia, Yihua Zhang, Chongyu Fan, Jiancheng Liu, Mingyi Hong, Ke Ding, Sijia Liu,
- Abstract要約: 拡散モデル(DM)はテキスト・画像生成において顕著な成功を収めてきたが、安全性のリスクも生じている。
マシン・アンラーニングのテクニックは、概念消去としても知られ、これらのリスクに対処するために開発されている。
本研究は, 対人訓練(AT)の原理をマシン・アンラーニングに統合することにより, 概念消去の堅牢性を高めることを目的とする。
- 参考スコア(独自算出の注目度): 42.734578139757886
- License:
- Abstract: Diffusion models (DMs) have achieved remarkable success in text-to-image generation, but they also pose safety risks, such as the potential generation of harmful content and copyright violations. The techniques of machine unlearning, also known as concept erasing, have been developed to address these risks. However, these techniques remain vulnerable to adversarial prompt attacks, which can prompt DMs post-unlearning to regenerate undesired images containing concepts (such as nudity) meant to be erased. This work aims to enhance the robustness of concept erasing by integrating the principle of adversarial training (AT) into machine unlearning, resulting in the robust unlearning framework referred to as AdvUnlearn. However, achieving this effectively and efficiently is highly nontrivial. First, we find that a straightforward implementation of AT compromises DMs' image generation quality post-unlearning. To address this, we develop a utility-retaining regularization on an additional retain set, optimizing the trade-off between concept erasure robustness and model utility in AdvUnlearn. Moreover, we identify the text encoder as a more suitable module for robustification compared to UNet, ensuring unlearning effectiveness. And the acquired text encoder can serve as a plug-and-play robust unlearner for various DM types. Empirically, we perform extensive experiments to demonstrate the robustness advantage of AdvUnlearn across various DM unlearning scenarios, including the erasure of nudity, objects, and style concepts. In addition to robustness, AdvUnlearn also achieves a balanced tradeoff with model utility. To our knowledge, this is the first work to systematically explore robust DM unlearning through AT, setting it apart from existing methods that overlook robustness in concept erasing. Codes are available at: https://github.com/OPTML-Group/AdvUnlearn
- Abstract(参考訳): 拡散モデル(DM)は、テキスト・画像生成において顕著な成功を収めてきたが、有害なコンテンツの発生や著作権侵害など、安全性のリスクも生じている。
マシン・アンラーニングのテクニックは、概念消去としても知られ、これらのリスクに対処するために開発されている。
しかし、これらの手法は敵の迅速な攻撃に弱いままであり、DMが学習後に、削除を意図した概念(ヌードなど)を含む望ましくないイメージを再生するように促すことができる。
この研究は、敵対的トレーニング(AT)の原則を機械学習に統合することにより、概念消去の堅牢性を高めることを目的としており、その結果、AdvUnlearnと呼ばれる堅牢なアンラーニングフレームワークが実現される。
しかし、これを効果的に効果的に達成することは、非常に非自明である。
まず,ATの簡単な実装によって,画像生成の質を損なうことが判明した。
そこで我々は,AdvUnlearnにおける概念消去ロバスト性とモデルユーティリティとのトレードオフを最適化し,余剰集合に対する実用性保持型正規化を開発する。
さらに,テキストエンコーダをUNetよりも堅牢化に適したモジュールとして同定し,未学習の有効性を保証する。
また、取得したテキストエンコーダは、様々なDMタイプに対して、プラグアンドプレイの堅牢なアンラーナーとして機能する。
経験的に、我々は様々なDM未学習シナリオにおけるAdvUnlearnの堅牢性優位性を示すために、ヌード、オブジェクト、スタイルの概念の消去を含む広範な実験を行った。
堅牢性に加えて、AdvUnlearnはモデルユーティリティとのバランスの取れたトレードオフも達成している。
我々の知る限りでは、これはATを通して堅牢なDMアンラーニングを体系的に探求する最初の試みであり、概念消去の堅牢性を見落としている既存の方法とは別物である。
https://github.com/OPTML-Group/AdvUnlearn
関連論文リスト
- Meta-Unlearning on Diffusion Models: Preventing Relearning Unlearned Concepts [34.74792073509646]
メタ学習事前学習拡散モデル(DM)の枠組みを提案する。
我々のフレームワークは既存のほとんどの未学習メソッドと互換性があり、実装が容易なメタオブジェクトを追加するだけでよい。
論文 参考訳(メタデータ) (2024-10-16T17:51:25Z) - Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - UnlearnCanvas: Stylized Image Dataset for Enhanced Machine Unlearning Evaluation in Diffusion Models [31.48739583108113]
拡散モデル(DM)はテキスト・画像生成において前例のない機能を示し、多様な用途で広く利用されている。
彼らはまた、有害なコンテンツの生成や著作権紛争など、社会的な問題も提起している。
マシン・アンラーニング(MU)は、DMから望ましくない生成能力を除去できる有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2024-02-19T05:25:53Z) - Initialization Matters for Adversarial Transfer Learning [61.89451332757625]
我々は、逆向きに頑健な事前訓練モデルの必要性を発見する。
本稿では, 対向線形探索により得られる重み付き線形ヘッドを初期化する対向微調整のためのロバスト線形初期化法(RoLI)を提案する。
5つの異なる画像分類データセットにおいて,RoLIの有効性を実証し,新しい最先端結果を得た。
論文 参考訳(メタデータ) (2023-12-10T00:51:05Z) - To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now [22.75295925610285]
拡散モデル(DM)は、現実的で複雑な画像の生成に革命をもたらした。
DMはまた、有害なコンテンツの生成やデータ著作権の侵害など、潜在的な安全上の危険性も導入している。
安全駆動の未学習技術の発展にもかかわらず、その有効性に対する疑念は続いている。
論文 参考訳(メタデータ) (2023-10-18T10:36:34Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z) - Revisiting Adversarial Robustness Distillation: Robust Soft Labels Make
Student Better [66.69777970159558]
本稿では,ロバスト軟ラベル蒸留法(RSLAD)と呼ばれる新しい対向ロバスト蒸留法を提案する。
RSLADは、学生の学習をガイドするために、頑健な(逆向きに訓練された)大きな教師モデルによって生成される頑健なソフトラベルを完全に活用する。
我々は,既存の逆行訓練および蒸留法に対するRSLADアプローチの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2021-08-18T04:32:35Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。