Fugu-MT 論文翻訳(概要): To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now

論文の概要: To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now

arxiv url: http://arxiv.org/abs/2310.11868v2
Date: Sun, 24 Mar 2024 00:11:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 02:45:56.257615
Title: To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now
Title（参考訳）: 安全駆動型未学習拡散モデルでは、安全でない画像を簡単に生成できる...今のところ
Authors: Yimeng Zhang, Jinghan Jia, Xin Chen, Aochuan Chen, Yihua Zhang, Jiancheng Liu, Ke Ding, Sijia Liu,
Abstract要約: 本研究は,5種類の安全駆動型未学習DM(望ましくない概念,スタイル,対象を学習した後のDM)の頑健性を評価する。本研究は,UnlearnDiffAtkの有効性と有効性を示すものである。
参考スコア（独自算出の注目度）: 22.75295925610285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent advances in diffusion models (DMs) have revolutionized the generation of realistic and complex images. However, these models also introduce potential safety hazards, such as producing harmful content and infringing data copyrights. Despite the development of safety-driven unlearning techniques to counteract these challenges, doubts about their efficacy persist. To tackle this issue, we introduce an evaluation framework that leverages adversarial prompts to discern the trustworthiness of these safety-driven DMs after they have undergone the process of unlearning harmful concepts. Specifically, we investigated the adversarial robustness of DMs, assessed by adversarial prompts, when eliminating unwanted concepts, styles, and objects. We develop an effective and efficient adversarial prompt generation approach for DMs, termed UnlearnDiffAtk. This method capitalizes on the intrinsic classification abilities of DMs to simplify the creation of adversarial prompts, thereby eliminating the need for auxiliary classification or diffusion models.Through extensive benchmarking, we evaluate the robustness of five widely-used safety-driven unlearned DMs (i.e., DMs after unlearning undesirable concepts, styles, or objects) across a variety of tasks. Our results demonstrate the effectiveness and efficiency merits of UnlearnDiffAtk over the state-of-the-art adversarial prompt generation method and reveal the lack of robustness of current safety-driven unlearning techniques when applied to DMs. Codes are available at https://github.com/OPTML-Group/Diffusion-MU-Attack. WARNING: This paper contains model outputs that may be offensive in nature.
Abstract（参考訳）: 拡散モデル(DM)の最近の進歩は、現実的で複雑な画像の生成に革命をもたらした。しかし、これらのモデルは有害なコンテンツを生成し、データ著作権を侵害するなど、潜在的な安全リスクも導入する。これらの課題に対処する安全駆動のアンラーニング技術が開発されているにもかかわらず、その有効性に疑問が残る。この問題に対処するため,本稿では,非学習的有害概念のプロセスを経て,これらの安全駆動型DMの信頼性を識別するために,敵対的刺激を活用する評価枠組みを導入する。具体的には、不要な概念、スタイル、対象を除去する際、敵のプロンプトによって評価されたDMの対向的堅牢性について検討した。我々は,UnlearnDiffAtk と呼ばれる DM の効率的かつ効率的な対向的プロンプト生成手法を開発した。本手法は,DMの本質的な分類能力を活用して,敵対的プロンプトの作成を簡素化し,補助的分類や拡散モデルの必要性を解消する。提案手法の有効性と有効性を示すとともに,DMに適用した場合の現在の安全駆動型アンラーニング手法の堅牢性の欠如を明らかにした。コードはhttps://github.com/OPTML-Group/Diffusion-MU-Attack.comで公開されている。 WARNING: 本論文は、自然界で攻撃的なモデル出力を含む。

関連論文リスト

SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。 SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文参考訳（メタデータ） (2026-01-13T15:01:38Z)
Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification [52.63017280231648]
人物再識別(ReID)は、歩行者軌道追跡などの現実の多くの応用において、基本的な課題である。 Person ReIDモデルは、歩行者画像に対する知覚不能な摂動が完全に誤った予測を引き起こすような、敵の攻撃に非常に敏感である。本稿では,2つの相からなる二重不変防衛フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-13T03:56:40Z)
Responsible Diffusion: A Comprehensive Survey on Safety, Ethics, and Trust in Diffusion Models [69.22690439422531]
拡散モデル(DM)は,高品質なデータを生成する能力から,様々な領域で研究されている。従来のディープラーニングシステムと同様に、DMに対する潜在的な脅威も存在する。この調査は、その枠組み、脅威、および対策を包括的に解明する。
論文参考訳（メタデータ） (2025-09-25T02:51:43Z)
Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-07-09T02:59:01Z)
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文参考訳（メタデータ） (2025-03-10T14:37:53Z)
Training-Free Safe Denoisers for Safe Use of Diffusion Models [49.045799120267915]
強力な拡散モデル(DM)は、安全でない作業用コンテンツ(NSFW)を生成したり、忘れられたい個人の著作権のある資料やデータを生成するためにしばしば誤用される。我々は,データ分布の否定領域を回避しつつ,高品質なサンプルを生成する実用的なアルゴリズムを開発した。これらの結果は、DMをより安全に使用するための、トレーニング不要の安全なデノイザーの大きな可能性を示唆している。
論文参考訳（メタデータ） (2025-02-11T23:14:39Z)
Defensive Dual Masking for Robust Adversarial Defense [5.932787778915417]
本稿では,このような攻撃に対するモデルロバスト性を高めるための新しいアプローチであるDDMアルゴリズムを提案する。 DDMは, [MASK]トークンをトレーニングサンプルに戦略的に挿入し, 対向的摂動をより効果的に扱うためのモデルを作成する, 独自の対向的トレーニング戦略を採用している。推論中、潜在的な敵トークンは、入力のコアセマンティクスを保持しながら潜在的な脅威を中和するために、動的に[MASK]トークンに置き換えられる。
論文参考訳（メタデータ） (2024-12-10T00:41:25Z)
Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models [63.43422118066493]
マシン・アンラーニング(MU)は安全でセキュアで信頼性の高いGenAIモデルを開発する上で重要な基盤である。従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。本稿では,拡散モデルにおいて望ましくない情報を忘れることを促進する革新的なMUアプローチであるScore Forgetting Distillation (SFD)を紹介する。
論文参考訳（メタデータ） (2024-09-17T14:12:50Z)
Attacks and Defenses for Generative Diffusion Models: A Comprehensive Survey [5.300811350105823]
拡散モデル (DM) は様々な生成タスクにおいて最先端の性能を達成した。近年の研究では、DMは幅広い攻撃を受けやすいことが示されている。
論文参考訳（メタデータ） (2024-08-06T18:52:17Z)
Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models [42.734578139757886]
拡散モデル(DM)はテキスト・画像生成において顕著な成功を収めてきたが、安全性のリスクも生じている。マシン・アンラーニングのテクニックは、概念消去としても知られ、これらのリスクに対処するために開発されている。本研究は, 対人訓練(AT)の原理をマシン・アンラーニングに統合することにより, 概念消去の堅牢性を高めることを目的とする。
論文参考訳（メタデータ） (2024-05-24T05:47:23Z)
Robust Diffusion Models for Adversarial Purification [28.313494459818497]
拡散モデル(DM)に基づく対位法(AP)は、対位法トレーニング(AT)の最も強力な代替手段であることが示されている。本稿では,事前訓練したDMとは独立に,敵対的指導を施した新しい頑健な逆過程を提案する。この堅牢なガイダンスは、よりセマンティックなコンテンツを保持する純粋化された例を生成するだけでなく、DMの正確でロバストなトレードオフを軽減することができる。
論文参考訳（メタデータ） (2024-03-24T08:34:08Z)
UnlearnCanvas: Stylized Image Dataset for Enhanced Machine Unlearning Evaluation in Diffusion Models [31.48739583108113]
拡散モデル(DM)はテキスト・画像生成において前例のない機能を示し、多様な用途で広く利用されている。彼らはまた、有害なコンテンツの生成や著作権紛争など、社会的な問題も提起している。マシン・アンラーニング(MU)は、DMから望ましくない生成能力を除去できる有望なソリューションとして登場した。
論文参考訳（メタデータ） (2024-02-19T05:25:53Z)
Robust Safety Classifier for Large Language Models: Adversarial Prompt Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文参考訳（メタデータ） (2023-10-31T22:22:10Z)
Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。 BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文参考訳（メタデータ） (2022-11-21T09:51:28Z)
Exploring Adversarially Robust Training for Unsupervised Domain Adaptation [71.94264837503135]
Unsupervised Domain Adaptation (UDA)メソッドは、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的としている。本稿では、UDAのドメイン不変性を学習しながら、ATを介してラベルなしデータのロバスト性を高める方法について検討する。本稿では,ARTUDA と呼ばれる UDA の適応的ロバストトレーニング手法を提案する。
論文参考訳（メタデータ） (2022-02-18T17:05:19Z)
How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文参考訳（メタデータ） (2020-12-02T15:30:21Z)
Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文参考訳（メタデータ） (2020-07-29T08:38:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。