論文の概要: Seeing It Before It Happens: In-Generation NSFW Detection for Diffusion-Based Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2508.03006v1
- Date: Tue, 05 Aug 2025 02:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.742693
- Title: Seeing It Before It Happens: In-Generation NSFW Detection for Diffusion-Based Text-to-Image Models
- Title(参考訳): 発生前に見る:拡散に基づくテキスト・画像モデルのためのインジェネレーションNSFW検出
- Authors: Fan Yang, Yihao Huang, Jiayi Zhu, Ling Shi, Geguang Pu, Jin Song Dong, Kailong Wang,
- Abstract要約: In-Generation Detection (IGD) は、拡散過程中の予測ノイズを内部信号として利用し、NSFWの内容を識別する単純な方法である。
IGDの平均検出精度は91.32%で、NSFWプロンプトは7つのベースライン法より優れている。
- 参考スコア(独自算出の注目度): 14.407968315582755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based text-to-image (T2I) models enable high-quality image generation but also pose significant risks of misuse, particularly in producing not-safe-for-work (NSFW) content. While prior detection methods have focused on filtering prompts before generation or moderating images afterward, the in-generation phase of diffusion models remains largely unexplored for NSFW detection. In this paper, we introduce In-Generation Detection (IGD), a simple yet effective approach that leverages the predicted noise during the diffusion process as an internal signal to identify NSFW content. This approach is motivated by preliminary findings suggesting that the predicted noise may capture semantic cues that differentiate NSFW from benign prompts, even when the prompts are adversarially crafted. Experiments conducted on seven NSFW categories show that IGD achieves an average detection accuracy of 91.32% over naive and adversarial NSFW prompts, outperforming seven baseline methods.
- Abstract(参考訳): Diffusion-based text-to-image (T2I) モデルは高品質な画像生成を可能にするが、特に安全でない(NSFW)コンテンツの生成において、誤用の大きなリスクを生じさせる。
先行検出手法は画像の生成やモデレーター化に先立ってフィルタリングのプロンプトに焦点を合わせてきたが,NSFW検出では拡散モデルの初期段階はほとんど探索されていない。
本稿では,拡散過程における予測ノイズを内部信号として利用し,NSFW含有量を同定する簡易かつ効果的な手法であるインジェネレーション検出(IGD)を提案する。
この手法は, 予測ノイズが, NSFWと良性プロンプトを区別する意味的手がかりを, 逆方向のプロンプトでも捉えることを示唆する予備的な知見によって動機づけられた。
7つのNSFWカテゴリで実施された実験では、IGDはナイーブおよび逆方向のNSFWプロンプトよりも91.32%の平均検出精度を達成し、7つのベースライン法より優れていた。
関連論文リスト
- Towards SFW sampling for diffusion models via external conditioning [1.0923877073891446]
本稿では,Score-based Generative Model (SBM) における安全な出力を確保するための外部ソースの利用について検討する。
当社のセーフ・フォー・ワーク(SFW)サンプリングは、環境空間内の望ましくない領域からサンプルを誘導する条件軌道補正ステップを実装しています。
テキストから画像へのSBM安定拡散実験により,提案したSFWサンプリング器が明示的コンテンツの生成を効果的に抑制することを確認した。
論文 参考訳(メタデータ) (2025-05-12T17:27:40Z) - TokenProber: Jailbreaking Text-to-image Models via Fine-grained Word Impact Analysis [19.73325740171627]
感性認識型差分テストのためのTokenProberを提案する。
我々のアプローチは、T2Iモデルとセーフティチェッカーがセンシティブなコンテンツをどう解釈するかの相違を利用して、敵がしばしば成功するという重要な観察に基づいている。
324 NSFWプロンプトを用いた3つのT2Iモデル上での5つの安全チェッカーに対するTokenProberの評価は,その優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-11T06:32:33Z) - SC-Pro: Training-Free Framework for Defending Unsafe Image Synthesis Attack [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
NSFW画像を生成する敵攻撃に対して容易に防御できる訓練不要のフレームワークであるSC-Proを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - Detecting Discrepancies Between AI-Generated and Natural Images Using Uncertainty [91.64626435585643]
本稿では,誤用と関連するリスクを軽減するために,予測不確実性を利用してAI生成画像を検出する新しい手法を提案する。
この動機は、自然画像とAI生成画像の分布差に関する基本的な仮定から生じる。
本稿では,AI生成画像の検出スコアとして,大規模事前学習モデルを用いて不確実性を計算することを提案する。
論文 参考訳(メタデータ) (2024-12-08T11:32:25Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。
我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models! [52.0855711767075]
EvoSeedは、フォトリアリスティックな自然対向サンプルを生成するための進化戦略に基づくアルゴリズムフレームワークである。
我々は,CMA-ESを用いて初期種ベクトルの探索を最適化し,条件付き拡散モデルで処理すると,自然逆数サンプルをモデルで誤分類する。
実験の結果, 生成した対向画像は画像品質が高く, 安全分類器を通過させることで有害なコンテンツを生成する懸念が高まっていることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:39:29Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - Exposing the Fake: Effective Diffusion-Generated Images Detection [14.646957596560076]
本稿では拡散生成画像検出(SeDID)のためのステップワイド誤差と呼ばれる新しい検出法を提案する。
SeDIDは拡散モデルのユニークな特性、すなわち決定論的逆転と決定論的逆退誤差を利用する。
我々の研究は拡散モデル生成画像の識別に重要な貢献をしており、人工知能のセキュリティ分野における重要なステップとなっている。
論文 参考訳(メタデータ) (2023-07-12T16:16:37Z) - Guided Diffusion Model for Adversarial Purification [103.4596751105955]
敵攻撃は、様々なアルゴリズムやフレームワークでディープニューラルネットワーク(DNN)を妨害する。
本稿では,GDMP ( Guided diffusion model for purification) と呼ばれる新しい精製法を提案する。
様々なデータセットにわたる包括的実験において,提案したGDMPは,敵対的攻撃によって引き起こされた摂動を浅い範囲に減少させることを示した。
論文 参考訳(メタデータ) (2022-05-30T10:11:15Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。