論文の概要: SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2510.05173v1
- Date: Sun, 05 Oct 2025 10:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.885216
- Title: SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models
- Title(参考訳): SafeGuider:テキスト・画像モデルにおけるロバストで実用的なコンテンツ安全性制御
- Authors: Peigui Qi, Kunsheng Tang, Wenbo Zhou, Weiming Zhang, Nenghai Yu, Tianwei Zhang, Qing Guo, Jie Zhang,
- Abstract要約: テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
textbfSafeGuiderは、生成品質を損なうことなく、堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
- 参考スコア(独自算出の注目度): 74.11062256255387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image models have shown remarkable capabilities in generating high-quality images from natural language descriptions. However, these models are highly vulnerable to adversarial prompts, which can bypass safety measures and produce harmful content. Despite various defensive strategies, achieving robustness against attacks while maintaining practical utility in real-world applications remains a significant challenge. To address this issue, we first conduct an empirical study of the text encoder in the Stable Diffusion (SD) model, which is a widely used and representative text-to-image model. Our findings reveal that the [EOS] token acts as a semantic aggregator, exhibiting distinct distributional patterns between benign and adversarial prompts in its embedding space. Building on this insight, we introduce \textbf{SafeGuider}, a two-step framework designed for robust safety control without compromising generation quality. SafeGuider combines an embedding-level recognition model with a safety-aware feature erasure beam search algorithm. This integration enables the framework to maintain high-quality image generation for benign prompts while ensuring robust defense against both in-domain and out-of-domain attacks. SafeGuider demonstrates exceptional effectiveness in minimizing attack success rates, achieving a maximum rate of only 5.48\% across various attack scenarios. Moreover, instead of refusing to generate or producing black images for unsafe prompts, \textbf{SafeGuider} generates safe and meaningful images, enhancing its practical utility. In addition, SafeGuider is not limited to the SD model and can be effectively applied to other text-to-image models, such as the Flux model, demonstrating its versatility and adaptability across different architectures. We hope that SafeGuider can shed some light on the practical deployment of secure text-to-image systems.
- Abstract(参考訳): テキスト・ツー・イメージモデルは、自然言語記述から高品質な画像を生成する際、顕著な能力を示している。
しかし、これらのモデルは敵のプロンプトに対して非常に脆弱であり、安全対策を回避し、有害なコンテンツを生成することができる。
様々な防御戦略にもかかわらず、現実世界のアプリケーションで実用性を維持しながら攻撃に対して堅牢性を達成することは、依然として大きな課題である。
この問題に対処するために,我々はまず,テキストエンコーダをSD(Stable Diffusion)モデルで実証的研究を行った。
以上の結果から,[EOS]トークンはセマンティックアグリゲータとして機能し, その埋め込み空間における良性プロンプトと敵性プロンプトの分布パターンが異なることが明らかとなった。
この知見に基づいて、生成品質を損なうことなく、堅牢な安全性制御を目的とした2段階のフレームワークである「textbf{SafeGuider}」を紹介した。
SafeGuiderは、埋め込みレベルの認識モデルと、安全な特徴消去ビーム探索アルゴリズムを組み合わせる。
この統合により、フレームワークは、ドメイン内攻撃とドメイン外攻撃の両方に対して堅牢な防御を確保しながら、良質なプロンプトのための高品質な画像生成を維持できる。
SafeGuiderは、攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48\%である。
さらに、安全でないプロンプトのために黒画像の生成や生成を拒否する代わりに、 \textbf{SafeGuider} は安全で有意義な画像を生成し、実用性を高めている。
加えて、SafeGuiderはSDモデルに限らず、Fluxモデルのような他のテキスト・ツー・イメージモデルにも効果的に適用することができる。
SafeGuiderがセキュアなテキスト・ツー・イメージシステムの実用的展開に光を当ててくれることを願っています。
関連論文リスト
- PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - Distorting Embedding Space for Safety: A Defense Mechanism for Adversarially Robust Diffusion Models [4.5656369638728656]
Distorting Embedding Space (DES) はテキストエンコーダベースの防御機構である。
DESは、アンセーフプロンプトを用いてテキストエンコーダから抽出されたアンセーフな埋め込みを、慎重に計算された安全な埋め込み領域に変換する。
DESはまた、敵攻撃に対する堅牢性を高めるために、中立的な埋め込みと整列することで、即時ヌードを用いて抽出されたヌード埋め込みを中和する。
論文 参考訳(メタデータ) (2025-01-31T04:14:05Z) - SC-Pro: Training-Free Framework for Defending Unsafe Image Synthesis Attack [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
NSFW画像を生成する敵攻撃に対して容易に防御できる訓練不要のフレームワークであるSC-Proを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models [38.45239843869313]
テキスト・ツー・イメージ(T2I)モデルは、テキスト記述から高品質な画像を生成する際、顕著な性能を示した。
T2Iモデルは、特にNSFW(Not-safe-for-work)コンテンツを生成する誤用に対して脆弱である。
本稿では,大規模言語モデルにおけるシステムプロンプト機構からインスピレーションを得る新しいコンテンツモデレーション手法であるPromptGuardを紹介する。
論文 参考訳(メタデータ) (2025-01-07T05:39:21Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。