論文の概要: MMA-Diffusion: MultiModal Attack on Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.17516v3
- Date: Mon, 25 Mar 2024 01:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:15:55.040207
- Title: MMA-Diffusion: MultiModal Attack on Diffusion Models
- Title(参考訳): MMA拡散:拡散モデルに対するマルチモーダル攻撃
- Authors: Yijun Yang, Ruiyuan Gao, Xiaosen Wang, Tsung-Yi Ho, Nan Xu, Qiang Xu,
- Abstract要約: MMA-Diffusionは、T2Iモデルのセキュリティに顕著で現実的な脅威をもたらす。
オープンソースモデルと商用オンラインサービスの両方において、現在の防御措置を回避している。
- 参考スコア(独自算出の注目度): 32.67807098568781
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, Text-to-Image (T2I) models have seen remarkable advancements, gaining widespread adoption. However, this progress has inadvertently opened avenues for potential misuse, particularly in generating inappropriate or Not-Safe-For-Work (NSFW) content. Our work introduces MMA-Diffusion, a framework that presents a significant and realistic threat to the security of T2I models by effectively circumventing current defensive measures in both open-source models and commercial online services. Unlike previous approaches, MMA-Diffusion leverages both textual and visual modalities to bypass safeguards like prompt filters and post-hoc safety checkers, thus exposing and highlighting the vulnerabilities in existing defense mechanisms.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ(T2I)モデルは顕著な進歩を遂げ,広く普及している。
しかし、この進歩は、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する際の、潜在的な誤用に対する不注意な道を開いた。
MMA-Diffusionは,オープンソースモデルと商用オンラインサービスの両方において,現在の防御対策を効果的に回避し,T2Iモデルのセキュリティに対する顕著かつ現実的な脅威を示すフレームワークである。
従来のアプローチとは異なり、MMA-Diffusionはテキストモードとビジュアルモードの両方を利用して、プロンプトフィルタやポストホックセーフティチェッカーのようなセーフガードを回避し、既存の防御機構の脆弱性を暴露し、強調する。
関連論文リスト
- GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [17.50653920106002]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T09:04:34Z) - Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks [41.531913152661296]
本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。
具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。
逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
論文 参考訳(メタデータ) (2024-01-16T12:15:39Z) - Adversarial Prompt Tuning for Vision-Language Models [90.89469048482249]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion
Models? [54.20337292389793]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by
Finding Problematic Prompts [68.24640128324778]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - DIFFender: Diffusion-Based Adversarial Defense against Patch Attacks [36.6091114633227]
敵対的攻撃、特にパッチ攻撃は、ディープラーニングモデルの堅牢性と信頼性に重大な脅威をもたらす。
本稿では,テキスト誘導拡散モデルを利用した新たな防御手法であるDIFFenderを提案する。
論文 参考訳(メタデータ) (2023-06-15T13:33:27Z) - DiffProtect: Generate Adversarial Examples with Diffusion Models for
Facial Privacy Protection [64.77548539959501]
DiffProtectは最先端の方法よりも自然に見える暗号化画像を生成する。
例えば、CelebA-HQとFFHQのデータセットで24.5%と25.1%の絶対的な改善が達成されている。
論文 参考訳(メタデータ) (2023-05-23T02:45:49Z) - Towards Prompt-robust Face Privacy Protection via Adversarial Decoupling
Augmentation Framework [20.652130361862053]
顔認識保護アルゴリズムの防御性能を高めるために,Adversarial Decoupling Augmentation Framework (ADAF)を提案する。
ADAFは、様々な攻撃プロンプトに対する防御安定のために、多レベルテキスト関連の拡張を導入している。
論文 参考訳(メタデータ) (2023-05-06T09:00:50Z) - Data Forensics in Diffusion Models: A Systematic Analysis of Membership
Privacy [62.16582309504159]
本研究では,拡散モデルに対するメンバシップ推論攻撃の系統的解析を開発し,各攻撃シナリオに適した新しい攻撃手法を提案する。
提案手法は容易に入手可能な量を利用して,現実的なシナリオにおいてほぼ完全な攻撃性能 (>0.9 AUCROC) を達成することができる。
論文 参考訳(メタデータ) (2023-02-15T17:37:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。