論文の概要: Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective
- arxiv url: http://arxiv.org/abs/2404.19382v1
- Date: Tue, 30 Apr 2024 09:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 14:44:46.037062
- Title: Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective
- Title(参考訳): 未学習拡散モデルの提案:移動可能な対向攻撃の視点
- Authors: Xiaoxuan Han, Songlin Yang, Wei Wang, Yang Li, Jing Dong,
- Abstract要約: 拡散モデルから概念を消去するアンラーニング手法が開発されている。
本論文は,ブラックボックス環境下での非学習的ロバスト性を探索するために,敵攻撃の伝達可能性を活用することを目的とする。
具体的には、異なる未学習モデル間での移動が可能な逆埋め込みを探索するために、逆探索戦略を用いる。
- 参考スコア(独自算出の注目度): 20.263233740360022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced text-to-image diffusion models raise safety concerns regarding identity privacy violation, copyright infringement, and Not Safe For Work content generation. Towards this, unlearning methods have been developed to erase these involved concepts from diffusion models. However, these unlearning methods only shift the text-to-image mapping and preserve the visual content within the generative space of diffusion models, leaving a fatal flaw for restoring these erased concepts. This erasure trustworthiness problem needs probe, but previous methods are sub-optimal from two perspectives: (1) Lack of transferability: Some methods operate within a white-box setting, requiring access to the unlearned model. And the learned adversarial input often fails to transfer to other unlearned models for concept restoration; (2) Limited attack: The prompt-level methods struggle to restore narrow concepts from unlearned models, such as celebrity identity. Therefore, this paper aims to leverage the transferability of the adversarial attack to probe the unlearning robustness under a black-box setting. This challenging scenario assumes that the unlearning method is unknown and the unlearned model is inaccessible for optimization, requiring the attack to be capable of transferring across different unlearned models. Specifically, we employ an adversarial search strategy to search for the adversarial embedding which can transfer across different unlearned models. This strategy adopts the original Stable Diffusion model as a surrogate model to iteratively erase and search for embeddings, enabling it to find the embedding that can restore the target concept for different unlearning methods. Extensive experiments demonstrate the transferability of the searched adversarial embedding across several state-of-the-art unlearning methods and its effectiveness for different levels of concepts.
- Abstract(参考訳): 高度なテキストから画像への拡散モデルは、アイデンティティのプライバシー侵害、著作権侵害、職場コンテンツ生成のための安全でないことに関する安全上の懸念を提起する。
これに向けて,これらの概念を拡散モデルから除去するアンラーニング手法が開発されている。
しかし、これらの未学習の手法は、テキストから画像へのマッピングをシフトし、拡散モデルの生成空間内の視覚的内容を保存するだけであり、これら消去された概念を復元する致命的な欠陥を残している。
この消去信頼性問題は、調査を必要とするが、従来の手法は、(1)転送可能性の欠如: ホワイトボックスの設定内で動作し、未学習のモデルへのアクセスを必要とする方法がある。
学習された敵対的入力は、しばしば概念回復のための他の未学習モデルに転送できない; (2) 限定攻撃: プロンプトレベルの手法は、有名人のアイデンティティのような未学習モデルから狭い概念を復元するのに苦労する。
そこで本稿は,ブラックボックス環境下での学習不能なロバスト性を探索するために,敵攻撃の伝達可能性を活用することを目的とする。
この挑戦的なシナリオは、未学習の手法が未知であり、未学習のモデルを最適化するにはアクセスできないと仮定し、異なる未学習のモデルをまたいで攻撃を行う必要がある。
具体的には、異なる未学習モデル間での移動が可能な逆埋め込みを探索するために、逆探索戦略を用いる。
この戦略では、元の安定拡散モデルを代理モデルとして採用し、埋め込みを反復的に消去し、検索することで、異なる未学習メソッドのターゲット概念を復元できる埋め込みを見つけることができる。
広範囲な実験は、いくつかの最先端の未学習手法にまたがる探索された敵対的埋め込みの伝達可能性と、その異なるレベルの概念に対する有効性を示す。
関連論文リスト
- SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders [4.013156524547073]
拡散モデルは、必然的に有害または望ましくないコンテンツを生成できる。
最近の機械学習アプローチは潜在的な解決策を提供するが、透明性を欠いていることが多い。
スパースオートエンコーダによって学習された特徴を活用する新しい手法であるSAeUronを紹介する。
論文 参考訳(メタデータ) (2025-01-29T23:29:47Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - Towards Lifelong Few-Shot Customization of Text-to-Image Diffusion [50.26583654615212]
テキストと画像の拡散のための一生にわたる数ショットのカスタマイズは、最小限のデータで新しいタスクのための既存のモデルを継続的に一般化することを目的としている。
本研究では,破滅的な忘れる問題を,関連する概念と過去の概念の2つに分類し,分類する。
実データの追加やオリジナルの概念データのオフライン再生に頼っている既存の方法とは異なり,本手法では,新しい概念を学習しながら,事前知識の蒸留を行うことが可能である。
論文 参考訳(メタデータ) (2024-11-08T12:58:48Z) - Unstable Unlearning: The Hidden Risk of Concept Resurgence in Diffusion Models [13.479224197351673]
一見無関係な画像にテキストから画像への拡散モデルを微調整することで、以前は「未学習」だった概念を「再学習」することができることを示す。
本研究は,インクリメンタルなモデル更新の脆弱さを浮き彫りにして,テキスト・ツー・イメージ拡散モデルの安全性と整合性を確保するための現在のアプローチに対する深刻な新たな懸念を提起するものである。
論文 参考訳(メタデータ) (2024-10-10T16:10:27Z) - Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models [7.9993879763024065]
本稿では,拡散モデルにおける未学習の5つの手法の理論的,実証的研究について述べる。
概念検索スコア(textbfCRS)と概念信頼スコア(textbfCCS)の2つの新しい評価指標を導入する。
論文 参考訳(メタデータ) (2024-09-09T14:38:31Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Hiding and Recovering Knowledge in Text-to-Image Diffusion Models via Learnable Prompts [23.04942433104886]
我々は、望ましくない概念を公開ユーザにとってアクセスし難いものにする、新しいコンセプトハイディングアプローチを導入する。
モデルから知識を完全に消去する代わりに、学習可能なプロンプトをクロスアテンションモジュールに組み込む。
これにより、フレキシブルなアクセス制御が可能になります -- 望ましくないコンテンツが簡単に生成されないようにし、再保存するオプションを保持します。
論文 参考訳(メタデータ) (2024-03-18T23:42:04Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。