論文の概要: TokenProber: Jailbreaking Text-to-image Models via Fine-grained Word Impact Analysis
- arxiv url: http://arxiv.org/abs/2505.08804v1
- Date: Sun, 11 May 2025 06:32:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.224266
- Title: TokenProber: Jailbreaking Text-to-image Models via Fine-grained Word Impact Analysis
- Title(参考訳): TokenProber: きめ細かい単語インパクト分析によるテキスト・画像モデルのジェイルブレーク
- Authors: Longtian Wang, Xiaofei Xie, Tianlin Li, Yuhan Zhi, Chao Shen,
- Abstract要約: 感性認識型差分テストのためのTokenProberを提案する。
我々のアプローチは、T2Iモデルとセーフティチェッカーがセンシティブなコンテンツをどう解釈するかの相違を利用して、敵がしばしば成功するという重要な観察に基づいている。
324 NSFWプロンプトを用いた3つのT2Iモデル上での5つの安全チェッカーに対するTokenProberの評価は,その優れた性能を示す。
- 参考スコア(独自算出の注目度): 19.73325740171627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) models have significantly advanced in producing high-quality images. However, such models have the ability to generate images containing not-safe-for-work (NSFW) content, such as pornography, violence, political content, and discrimination. To mitigate the risk of generating NSFW content, refusal mechanisms, i.e., safety checkers, have been developed to check potential NSFW content. Adversarial prompting techniques have been developed to evaluate the robustness of the refusal mechanisms. The key challenge remains to subtly modify the prompt in a way that preserves its sensitive nature while bypassing the refusal mechanisms. In this paper, we introduce TokenProber, a method designed for sensitivity-aware differential testing, aimed at evaluating the robustness of the refusal mechanisms in T2I models by generating adversarial prompts. Our approach is based on the key observation that adversarial prompts often succeed by exploiting discrepancies in how T2I models and safety checkers interpret sensitive content. Thus, we conduct a fine-grained analysis of the impact of specific words within prompts, distinguishing between dirty words that are essential for NSFW content generation and discrepant words that highlight the different sensitivity assessments between T2I models and safety checkers. Through the sensitivity-aware mutation, TokenProber generates adversarial prompts, striking a balance between maintaining NSFW content generation and evading detection. Our evaluation of TokenProber against 5 safety checkers on 3 popular T2I models, using 324 NSFW prompts, demonstrates its superior effectiveness in bypassing safety filters compared to existing methods (e.g., 54%+ increase on average), highlighting TokenProber's ability to uncover robustness issues in the existing refusal mechanisms.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは高品質な画像の製作に大きく進歩している。
しかし、このようなモデルでは、ポルノグラフィ、暴力、政治コンテンツ、差別など、安全でない仕事用コンテンツ(NSFW)を含む画像を生成することができる。
NSFWコンテンツの生成リスクを軽減するため、潜在的なNSFWコンテンツをチェックするために、セーフティチェッカー(セーフティチェッカー)の拒絶機構が開発された。
拒絶機構の堅牢性を評価するために, 対向的プロンプト技術が開発されている。
重要な課題は、拒絶機構をバイパスしながら、その繊細な性質を維持する方法でプロンプトを微妙に修正することである。
本稿では,T2Iモデルにおけるリフェール機構の堅牢性の評価を目的とした,感度認識型微分テストのためのTokenProberを提案する。
我々のアプローチは、T2Iモデルとセーフティチェッカーがセンシティブなコンテンツをどう解釈するかの相違を利用して、敵がしばしば成功するという重要な観察に基づいている。
そこで我々は,NSFWコンテンツ生成に不可欠な汚い単語と,T2Iモデルとセーフティチェッカーの感度評価の相違を強調した不明瞭な単語を区別し,プロンプト内の特定の単語の影響をきめ細かな分析を行う。
センシティブ・アウェアの突然変異により、TokenProberは逆方向のプロンプトを生成し、NSFWコンテンツ生成の維持と回避検出のバランスを崩す。
324 NSFWプロンプトを用いた3つのT2Iモデル上での5つの安全チェックに対するTokenProberの評価は、既存の手法(例えば平均54%以上の増加)と比較して、安全性フィルタをバイパスする効果が優れていることを示し、TokenProberが既存の拒絶機構の堅牢性問題を明らかにする能力を強調した。
関連論文リスト
- AEIOU: A Unified Defense Framework against NSFW Prompts in Text-to-Image Models [39.11841245506388]
悪意のあるユーザは、しばしばテキスト・ツー・イメージ(T2I)モデルを使用してNot-Safe-for-Work(NSFW)イメージを生成する。
本稿では,T2IモデルにおけるNSFWプロンプトに対する適応性,効率性,解釈性,最適化性,統一性を備えたフレームワークであるAEIOUを紹介する。
論文 参考訳(メタデータ) (2024-12-24T03:17:45Z) - AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。
ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。
本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T19:15:06Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。