論文の概要: Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset
- arxiv url: http://arxiv.org/abs/2504.11707v1
- Date: Wed, 16 Apr 2025 02:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:37:10.810442
- Title: Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset
- Title(参考訳): Web上での安全な合成画像生成に向けて:マルチモーダルロバストNSFW防衛と数百万のスケールデータセット
- Authors: Muhammad Shahid Muneer, Simon S. Woo,
- Abstract要約: 安全かつNSFWなテキストとイメージを区別するためにマルチモーダルディフェンスが開発された。
我々のモデルは精度とリコールの観点から既存のSOTA NSFW検出手法に対して良好に機能する。
- 参考スコア(独自算出の注目度): 20.758637391023345
- License:
- Abstract: In the past years, we have witnessed the remarkable success of Text-to-Image (T2I) models and their widespread use on the web. Extensive research in making T2I models produce hyper-realistic images has led to new concerns, such as generating Not-Safe-For-Work (NSFW) web content and polluting the web society. To help prevent misuse of T2I models and create a safer web environment for users features like NSFW filters and post-hoc security checks are used in these models. However, recent work unveiled how these methods can easily fail to prevent misuse. In particular, adversarial attacks on text and image modalities can easily outplay defensive measures. %Exploiting such leads to the growing concern of preventing adversarial attacks on text and image modalities. Moreover, there is currently no robust multimodal NSFW dataset that includes both prompt and image pairs and adversarial examples. This work proposes a million-scale prompt and image dataset generated using open-source diffusion models. Second, we develop a multimodal defense to distinguish safe and NSFW text and images, which is robust against adversarial attacks and directly alleviates current challenges. Our extensive experiments show that our model performs well against existing SOTA NSFW detection methods in terms of accuracy and recall, drastically reducing the Attack Success Rate (ASR) in multimodal adversarial attack scenarios. Code: https://github.com/shahidmuneer/multimodal-nsfw-defense.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ・モデル(T2I)の顕著な成功と,Web上での利用が注目されている。
T2Iモデルを作成するための大規模な研究は、NSFW(Not-Safe-For-Work)Webコンテンツの生成やWeb社会の汚染など、新たな懸念を引き起こしている。
T2Iモデルの誤使用を防止するため、NSFWフィルタやポストホックセキュリティチェックなどのユーザ機能のためのより安全なWeb環境がこれらのモデルで使用されている。
しかし、最近の研究は、これらの方法が誤用を防ぐのにいかに容易に失敗するかを明らかにしている。
特に、テキストや画像のモダリティに対する敵対的な攻撃は、防御対策に容易に勝る。
%拡大すると、テキストや画像のモダリティに対する敵対的な攻撃を防ぐという懸念が高まっている。
さらに、現在、プロンプトとイメージのペアと逆の例を含む堅牢なマルチモーダルNSFWデータセットは存在しない。
本研究は,オープンソース拡散モデルを用いて生成した100万規模のプロンプトと画像データセットを提案する。
第2に、安全かつNSFWのテキストと画像を区別するマルチモーダルディフェンスを開発し、敵攻撃に対して堅牢であり、現在の課題を直接緩和する。
大規模な実験により,我々は既存のSOTA NSFW検出手法に対して精度とリコールの点で良好な性能を示し,マルチモーダル攻撃シナリオにおける攻撃成功率(ASR)を大幅に低減した。
コード:https://github.com/shahidmuneer/multimodal-nsfw-defense。
関連論文リスト
- CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - AEIOU: A Unified Defense Framework against NSFW Prompts in Text-to-Image Models [39.11841245506388]
悪意のあるユーザは、しばしばテキスト・ツー・イメージ(T2I)モデルを使用してNot-Safe-for-Work(NSFW)イメージを生成する。
本稿では,T2IモデルにおけるNSFWプロンプトに対する適応性,効率性,解釈性,最適化性,統一性を備えたフレームワークであるAEIOUを紹介する。
論文 参考訳(メタデータ) (2024-12-24T03:17:45Z) - Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。
ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。
本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T19:15:06Z) - Multimodal Pragmatic Jailbreak on Text-to-image Models [43.67831238116829]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。
2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
論文 参考訳(メタデータ) (2024-09-27T21:23:46Z) - DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models [79.71665540122498]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z) - DiffProtect: Generate Adversarial Examples with Diffusion Models for
Facial Privacy Protection [64.77548539959501]
DiffProtectは最先端の方法よりも自然に見える暗号化画像を生成する。
例えば、CelebA-HQとFFHQのデータセットで24.5%と25.1%の絶対的な改善が達成されている。
論文 参考訳(メタデータ) (2023-05-23T02:45:49Z) - SneakyPrompt: Jailbreaking Text-to-image Generative Models [20.645304189835944]
我々は,最初の自動攻撃フレームワークであるSneakyPromptをジェイルブレイクテキスト画像生成モデルに提案する。
安全フィルタによってブロックされるプロンプトを与えられたSneakyPromptは、テキスト・ツー・イメージ生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
評価の結果,SneakyPromptはNSFW画像の生成に成功しているだけでなく,jailbreakテキスト・画像生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
論文 参考訳(メタデータ) (2023-05-20T03:41:45Z) - Beyond ImageNet Attack: Towards Crafting Adversarial Examples for
Black-box Domains [80.11169390071869]
敵対的な例は、転送可能な性質のため、ディープニューラルネットワークに深刻な脅威をもたらしている。
ブラックボックス領域への転送可能性を調べるために,Beyond ImageNet Attack (BIA)を提案する。
提案手法は, 最先端手法を最大7.71%(粗粒領域)と25.91%(細粒領域)で平均的に上回っている。
論文 参考訳(メタデータ) (2022-01-27T14:04:27Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。