論文の概要: NSFW-Classifier Guided Prompt Sanitization for Safe Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2506.18325v1
- Date: Mon, 23 Jun 2025 06:17:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.879537
- Title: NSFW-Classifier Guided Prompt Sanitization for Safe Text-to-Image Generation
- Title(参考訳): NSFW分類による安全なテキスト・画像生成のためのプロンプト衛生化
- Authors: Yu Xie, Chengjie Zeng, Lingyun Zhang, Yanwei Fu,
- Abstract要約: 大きな言語モデルの"jailbreak"攻撃は、微妙な迅速な修正を通じて制限をバイパスする。
PromptSanは、モデルアーキテクチャを変更することなく有害なプロンプトを解毒するための新しいアプローチである。
PromptSanは、複数のメトリクスにわたる有害なコンテンツ生成を減らすことで、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 47.03824997129498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of text-to-image (T2I) models, such as Stable Diffusion, has enhanced their capability to synthesize images from textual prompts. However, this progress also raises significant risks of misuse, including the generation of harmful content (e.g., pornography, violence, discrimination), which contradicts the ethical goals of T2I technology and hinders its sustainable development. Inspired by "jailbreak" attacks in large language models, which bypass restrictions through subtle prompt modifications, this paper proposes NSFW-Classifier Guided Prompt Sanitization (PromptSan), a novel approach to detoxify harmful prompts without altering model architecture or degrading generation capability. PromptSan includes two variants: PromptSan-Modify, which iteratively identifies and replaces harmful tokens in input prompts using text NSFW classifiers during inference, and PromptSan-Suffix, which trains an optimized suffix token sequence to neutralize harmful intent while passing both text and image NSFW classifier checks. Extensive experiments demonstrate that PromptSan achieves state-of-the-art performance in reducing harmful content generation across multiple metrics, effectively balancing safety and usability.
- Abstract(参考訳): 安定拡散(Stable Diffusion)のようなテキスト・トゥ・イメージ(T2I)モデルの急速な進歩により、テキスト・プロンプトからの画像合成能力が向上した。
しかし、この進歩は、有害なコンテンツ(ポルノ、暴力、差別など)の生成など、T2I技術の倫理的目標と矛盾し、その持続的な発展を妨げる重大な誤用のリスクも引き起こす。
本稿では, モデルアーキテクチャの変更や生成能力の低下を伴わずに有害なプロンプトをデトックス化する新しい手法であるNSFW-Classifier Guided Prompt Sanitization (PromptSan)を提案する。
PromptSan-Modifyは、入力プロンプト中の有害なトークンを、推論中にテキストNSFW分類器を使用して反復的に識別し置換するPromptSan-Suffixと、テキストと画像NSFW分類器をパスしながら有害な意図を中和するために最適化された接尾辞トークンシーケンスをトレーニングするPromptSan-Suffixである。
PromptSanは、複数のメトリクスにわたる有害なコンテンツ生成を低減し、安全性とユーザビリティを効果的にバランスさせることで、最先端のパフォーマンスを実現している。
関連論文リスト
- GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - TokenProber: Jailbreaking Text-to-image Models via Fine-grained Word Impact Analysis [19.73325740171627]
感性認識型差分テストのためのTokenProberを提案する。
我々のアプローチは、T2Iモデルとセーフティチェッカーがセンシティブなコンテンツをどう解釈するかの相違を利用して、敵がしばしば成功するという重要な観察に基づいている。
324 NSFWプロンプトを用いた3つのT2Iモデル上での5つの安全チェッカーに対するTokenProberの評価は,その優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-11T06:32:33Z) - Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [16.188657772178747]
本研究では,不適切な概念を迅速に埋め込むことで,テキスト・ツー・イメージモデルの安全性を高めるEmbeded Sanitizer (ES)を提案する。
ESは、その潜在的な有害性を示すプロンプトにおいて各トークンにスコアを割り当てる最初の解釈可能な安全な生成フレームワークである。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。
ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。
本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T19:15:06Z) - SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。