論文の概要: Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective
- arxiv url: http://arxiv.org/abs/2404.19382v1
- Date: Tue, 30 Apr 2024 09:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 14:44:46.037062
- Title: Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective
- Title(参考訳): 未学習拡散モデルの提案:移動可能な対向攻撃の視点
- Authors: Xiaoxuan Han, Songlin Yang, Wei Wang, Yang Li, Jing Dong,
- Abstract要約: 拡散モデルから概念を消去するアンラーニング手法が開発されている。
本論文は,ブラックボックス環境下での非学習的ロバスト性を探索するために,敵攻撃の伝達可能性を活用することを目的とする。
具体的には、異なる未学習モデル間での移動が可能な逆埋め込みを探索するために、逆探索戦略を用いる。
- 参考スコア(独自算出の注目度): 20.263233740360022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced text-to-image diffusion models raise safety concerns regarding identity privacy violation, copyright infringement, and Not Safe For Work content generation. Towards this, unlearning methods have been developed to erase these involved concepts from diffusion models. However, these unlearning methods only shift the text-to-image mapping and preserve the visual content within the generative space of diffusion models, leaving a fatal flaw for restoring these erased concepts. This erasure trustworthiness problem needs probe, but previous methods are sub-optimal from two perspectives: (1) Lack of transferability: Some methods operate within a white-box setting, requiring access to the unlearned model. And the learned adversarial input often fails to transfer to other unlearned models for concept restoration; (2) Limited attack: The prompt-level methods struggle to restore narrow concepts from unlearned models, such as celebrity identity. Therefore, this paper aims to leverage the transferability of the adversarial attack to probe the unlearning robustness under a black-box setting. This challenging scenario assumes that the unlearning method is unknown and the unlearned model is inaccessible for optimization, requiring the attack to be capable of transferring across different unlearned models. Specifically, we employ an adversarial search strategy to search for the adversarial embedding which can transfer across different unlearned models. This strategy adopts the original Stable Diffusion model as a surrogate model to iteratively erase and search for embeddings, enabling it to find the embedding that can restore the target concept for different unlearning methods. Extensive experiments demonstrate the transferability of the searched adversarial embedding across several state-of-the-art unlearning methods and its effectiveness for different levels of concepts.
- Abstract(参考訳): 高度なテキストから画像への拡散モデルは、アイデンティティのプライバシー侵害、著作権侵害、職場コンテンツ生成のための安全でないことに関する安全上の懸念を提起する。
これに向けて,これらの概念を拡散モデルから除去するアンラーニング手法が開発されている。
しかし、これらの未学習の手法は、テキストから画像へのマッピングをシフトし、拡散モデルの生成空間内の視覚的内容を保存するだけであり、これら消去された概念を復元する致命的な欠陥を残している。
この消去信頼性問題は、調査を必要とするが、従来の手法は、(1)転送可能性の欠如: ホワイトボックスの設定内で動作し、未学習のモデルへのアクセスを必要とする方法がある。
学習された敵対的入力は、しばしば概念回復のための他の未学習モデルに転送できない; (2) 限定攻撃: プロンプトレベルの手法は、有名人のアイデンティティのような未学習モデルから狭い概念を復元するのに苦労する。
そこで本稿は,ブラックボックス環境下での学習不能なロバスト性を探索するために,敵攻撃の伝達可能性を活用することを目的とする。
この挑戦的なシナリオは、未学習の手法が未知であり、未学習のモデルを最適化するにはアクセスできないと仮定し、異なる未学習のモデルをまたいで攻撃を行う必要がある。
具体的には、異なる未学習モデル間での移動が可能な逆埋め込みを探索するために、逆探索戦略を用いる。
この戦略では、元の安定拡散モデルを代理モデルとして採用し、埋め込みを反復的に消去し、検索することで、異なる未学習メソッドのターゲット概念を復元できる埋め込みを見つけることができる。
広範囲な実験は、いくつかの最先端の未学習手法にまたがる探索された敵対的埋め込みの伝達可能性と、その異なるレベルの概念に対する有効性を示す。
関連論文リスト
- Deceptive Diffusion: Generating Synthetic Adversarial Examples [2.7309692684728617]
本稿では, 擬似拡散の概念を導入し, 生成的AIモデルを訓練し, 敵対的画像を生成する。
従来の敵攻撃アルゴリズムは、既存の画像を摂動させ、誤分類を誘発することを目的としている。
偽拡散モデルは、トレーニングやテスト画像に直接関連しない、任意の数の新しい非分類画像を生成することができる。
論文 参考訳(メタデータ) (2024-06-28T10:30:46Z) - Investigating and Defending Shortcut Learning in Personalized Diffusion Models [16.569765598914152]
ショートカット学習のレンズを通して、パーソナライズされた拡散モデルの微調整過程を詳しく調べる。
この微調整時のミスアライメントは、モデルがノイズパターンと識別子を関連付ける原因となり、性能が低下する。
提案手法は,まず画像に固有の意味的意味を潜時空間で認識する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.091446060893638]
本稿では,拡散モデルにおける非学習概念のための概念領域補正フレームワークを提案する。
直感的概念とアンカー的概念の出力領域を敵対的訓練によって整合させることにより、未学習結果の一般化性を高める。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Segue: Side-information Guided Generative Unlearnable Examples for
Facial Privacy Protection in Real World [64.4289385463226]
生成不可能な例としては、Segue: Side-information guided Generative unlearnable Exampleを提案する。
転送性を向上させるために,真のラベルや擬似ラベルなどの側面情報を導入する。
JPEG圧縮、敵対的トレーニング、およびいくつかの標準的なデータ拡張に抵抗することができる。
論文 参考訳(メタデータ) (2023-10-24T06:22:37Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - Query-Efficient Black-box Adversarial Attacks Guided by a Transfer-based
Prior [50.393092185611536]
対象モデルの勾配にアクセスできることなく、敵が敵の例を作らなければならないブラックボックスの敵設定を考える。
従来の手法では、代用ホワイトボックスモデルの転送勾配を用いたり、モデルクエリのフィードバックに基づいて真の勾配を近似しようとした。
偏りサンプリングと勾配平均化に基づく2つの事前誘導型ランダム勾配フリー(PRGF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-13T04:06:27Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z) - Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer
Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。
また,移動学習モデルに対するブラックボックス攻撃手法を提案する。
ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文 参考訳(メタデータ) (2020-08-25T15:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。