論文の概要: Disciplined Diffusion: Text-to-Image Diffusion Model against NSFW Generation
- arxiv url: http://arxiv.org/abs/2605.01113v1
- Date: Fri, 01 May 2026 21:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.590594
- Title: Disciplined Diffusion: Text-to-Image Diffusion Model against NSFW Generation
- Title(参考訳): ディシプリンド拡散:NSFW生成に対するテキスト・画像拡散モデル
- Authors: Chi Zhang, Changjia Zhu, Xiaowen Li, Yao Liu, Zhuo Lu,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルでは、テキスト・プロンプトから高品質な画像を作成することができる。
有害な入力が与えられた場合、攻撃的または乱雑なイメージを生成できるため、安全上の懸念が生じる。
そこで我々は,Not Safe For Work (NSFW) 生成に対抗して,新しいロバストなテキストと画像の拡散である Disciplined Diffusion (DDiffusion) を提案する。
- 参考スコア(独自算出の注目度): 9.862349752373577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion models have the ability to build high-quality pictures from text prompts, but they pose safety concerns because they can generate offensive or disturbing imagery when provided with harmful inputs. Existing safety filters typically rely on text-based classifiers or image-based checkers that completely block the output upon detecting a threat, issuing an explicit allow/block feedback signal to the user. This binary strategy leaves models vulnerable to adversarial attacks that alter keywords to bypass detection, and it causes high false-alarm rates that degrade the experience for benign users. To address such vulnerabilities, we propose Disciplined Diffusion (DDiffusion), a novel robust text-to-image diffusion that counters Not Safe For Work (NSFW) generation by uncovering implicit malicious semantics in prompt embeddings. DDiffusion leverages a semantic retrieval mechanism to evaluate prompts against concept distributions rather than relying on brittle pairwise similarity. Furthermore, it employs a localization method during the diffusion process to selectively edit only the harmful regions of the generated image. By returning locally sanitized images instead of applying uniform blocking, DDiffusion suppresses malicious content while preserving generation fidelity for benign prompts and avoiding the binary allow-deny signal on which existing probing attacks rely.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルでは、テキスト・プロンプトから高品質な画像を作成することができるが、有害な入力が提供されると、攻撃的な画像や乱雑な画像を生成できるため、安全上の懸念が生じる。
既存の安全フィルタはテキストベースの分類器や画像ベースのチェッカーに依存しており、脅威を検出すると出力を完全にブロックし、ユーザに明示的な許可/ブロックのフィードバック信号を発行する。
このバイナリ戦略は、キーワードをバイパス検出に変更する敵攻撃に脆弱なモデルを残し、それによって偽アラームレートが高くなり、良質なユーザエクスペリエンスが低下する。
このような脆弱性に対処するため,我々は,非セーフ・フォー・ワーク(NSFW)生成に対抗し,暗黙的なセマンティクスを即時埋め込みで発見する,新しい堅牢なテキスト・画像拡散であるDisciplined Diffusion (DDiffusion)を提案する。
DDiffusionは意味的検索機構を利用して、不安定なペアの類似性に頼るのではなく、概念分布に対するプロンプトを評価する。
さらに、拡散過程中に局所化法を用いて、生成した画像の有害領域のみを選択的に編集する。
DDiffusionは、均一なブロッキングを施さずに局所的に衛生化された画像を返却することにより、良性プロンプトの生成忠実性を保ちながら悪意のあるコンテンツを抑制し、既存の探索攻撃が依存しているバイナリ許容信号を回避する。
関連論文リスト
- Adapter Shield: A Unified Framework with Built-in Authentication for Preventing Unauthorized Zero-Shot Image-to-Image Generation [74.5813283875938]
ゼロショット画像・画像生成は知的財産権侵害に重大なリスクをもたらす。
この研究は、個人イメージを誤用から守ることを目的とした、最初の普遍的および認証統合ソリューションであるAdapter Shieldを提示する。
提案手法は, ゼロショット画像合成の不正化において, 最先端の防御を克服する。
論文 参考訳(メタデータ) (2025-11-25T04:49:16Z) - Multimodal Prompt Decoupling Attack on the Safety Filters in Text-to-Image Models [73.43013217318965]
マルチモーダル・プロンプト・デカップリング・アタック(MPDA)
MPDAは画像モダリティを使用して、元の安全でないプロンプトの有害なセマンティックコンポーネントを分離する。
ビジュアル言語モデルは、生成したNSFW画像と元の安全でないプロンプトとのセマンティック一貫性を確保するために画像キャプションを生成する。
論文 参考訳(メタデータ) (2025-09-21T11:22:32Z) - PromptFlare: Prompt-Generalized Defense via Cross-Attention Decoy in Diffusion-Based Inpainting [25.24109316946351]
PromptFlareは,拡散型塗布モデルによる悪質な修正から画像を保護するために設計された,新たな敵対的保護手法である。
提案手法は, 急速埋め込みの固有特性を利用して, 対向ノイズを注入し, サンプリング過程を抑える。
EditBenchデータセットを用いた実験により,本手法が各種メトリクスの最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-08-22T08:42:46Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Mitigating Sexual Content Generation via Embedding Distortion in Text-conditioned Diffusion Models [2.2917707112773593]
Distorting Embedding Space (DES) はテキストエンコーダベースの防御機構である。
DESは、アンセーフプロンプトを用いてテキストエンコーダから抽出されたアンセーフな埋め込みを、慎重に計算された安全な埋め込み領域に変換する。
DESはまた、敵の攻撃に対する堅牢性を高めるために、ヌードの埋め込みを中立的な埋め込みと整合させることで、ヌードの埋め込みを中和する。
論文 参考訳(メタデータ) (2025-01-31T04:14:05Z) - SC-Pro: Training-Free Framework for Defending Unsafe Image Synthesis Attack [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
NSFW画像を生成する敵攻撃に対して容易に防御できる訓練不要のフレームワークであるSC-Proを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [33.29825481203704]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。
ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。
本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T19:15:06Z) - DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models [79.71665540122498]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。