論文の概要: To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still
Easy To Generate Unsafe Images ... For Now
- arxiv url: http://arxiv.org/abs/2310.11868v1
- Date: Wed, 18 Oct 2023 10:36:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 16:56:28.198749
- Title: To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still
Easy To Generate Unsafe Images ... For Now
- Title(参考訳): 生成するかどうか?
安全駆動型未学習拡散モデルでは、安全でない画像を簡単に生成できる...
今のところ
- Authors: Yimeng Zhang, Jinghan Jia, Xin Chen, Aochuan Chen, Yihua Zhang,
Jiancheng Liu, Ke Ding, Sijia Liu
- Abstract要約: 我々はUnlearnDiffと呼ばれる新しい逆学習手法を開発した。
この技術は、画像分類攻撃と同様に、生成的モデリングにおいて直感的なプロセスとして、敵対的プロンプトの作成を合理化する。
本研究は,UnlearnDiffの有効性と効率を,最先端の対人プロンプト法と比較した。
- 参考スコア(独自算出の注目度): 23.732933901883865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advances in diffusion models (DMs) have revolutionized the
generation of complex and diverse images. However, these models also introduce
potential safety hazards, such as the production of harmful content and
infringement of data copyrights. Although there have been efforts to create
safety-driven unlearning methods to counteract these challenges, doubts remain
about their capabilities. To bridge this uncertainty, we propose an evaluation
framework built upon adversarial attacks (also referred to as adversarial
prompts), in order to discern the trustworthiness of these safety-driven
unlearned DMs. Specifically, our research explores the (worst-case) robustness
of unlearned DMs in eradicating unwanted concepts, styles, and objects,
assessed by the generation of adversarial prompts. We develop a novel
adversarial learning approach called UnlearnDiff that leverages the inherent
classification capabilities of DMs to streamline the generation of adversarial
prompts, making it as simple for DMs as it is for image classification attacks.
This technique streamlines the creation of adversarial prompts, making the
process as intuitive for generative modeling as it is for image classification
assaults. Through comprehensive benchmarking, we assess the unlearning
robustness of five prevalent unlearned DMs across multiple tasks. Our results
underscore the effectiveness and efficiency of UnlearnDiff when compared to
state-of-the-art adversarial prompting methods. Codes are available at
https://github.com/OPTML-Group/Diffusion-MU-Attack. WARNING: This paper
contains model outputs that may be offensive in nature.
- Abstract(参考訳): 拡散モデル(DM)の最近の進歩は、複雑で多様な画像の生成に革命をもたらした。
しかし、これらのモデルは有害なコンテンツの生成やデータ著作権の侵害など、潜在的な安全リスクも導入する。
これらの課題に対処するために、安全駆動のアンラーニング手法を作成する努力はあったが、その能力に疑問が残る。
この不確かさを解消するために,我々は,これらの安全駆動型非学習dmの信頼性を識別するために,敵攻撃(敵プロンプトとも呼ばれる)に基づく評価フレームワークを提案する。
特に本研究では,不必要な概念,スタイル,オブジェクトの消去において,非学習dmの(最悪の)堅牢性について検討し,敵のプロンプトの生成によって評価する。
我々は, 画像分類攻撃の手法として, DMの固有な分類能力を活用して, 画像分類攻撃と同様に, DMの生成を簡素化する, UnlearnDiff と呼ばれる新しい逆学習手法を開発した。
このテクニックは、敵対的プロンプトの作成を合理化し、画像分類攻撃と同様に生成モデリングのプロセスを直感的にします。
総合的なベンチマークにより、複数のタスクにまたがる5つの未学習DMの未学習堅牢性を評価する。
本研究は,UnlearnDiffの有効性と効率を,最先端の対人プロンプト法と比較した。
コードはhttps://github.com/optml-group/diffusion-mu-attackで入手できる。
WARNING: 本論文は、自然界で攻撃的なモデル出力を含む。
関連論文リスト
- UnlearnCanvas: A Stylized Image Dataset to Benchmark Machine Unlearning
for Diffusion Models [32.30795853911037]
マシン・アンラーニング(MU)は、拡散モデル(DM)の望ましくない生成能力を除去する潜在的な解決策として登場した。
UnlearnCanvasは、画像オブジェクトと連動して芸術的絵画スタイルの非学習を評価するためのデータセットである。
我々は5つの最先端のMU手法をベンチマークし、その長所と短所、基礎となる未学習メカニズムに関する新たな洞察を明らかにした。
論文 参考訳(メタデータ) (2024-02-19T05:25:53Z) - Model Stealing Attack against Graph Classification with Authenticity,
Uncertainty and Diversity [85.1927483219819]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z) - VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion
Models [69.20464255450788]
拡散モデル(英: Diffusion Models, DM)は、可逆的ノイズ付加から可逆的腐敗過程を学習し、雑音を除去する手法である。
最近の研究では、基本的な無条件DMがバックドア注入に弱いことが示されている。
本稿では,DMのバックドア分析の現在の範囲を広げるために,統合されたバックドア攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-12T05:14:13Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Understanding the Vulnerability of Skeleton-based Human Activity
Recognition via Black-box Attack [41.04797759476035]
骨格に基づくヒト活動認識(HAR)における最初のブラックボックス対逆攻撃手法を提案する。
BASARは分類境界と自然運動多様体の間の相互作用を探索する。
BASARは、分類器、緩和、攻撃モードにまたがって攻撃を成功させることができることを示す。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。