論文の概要: PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2508.01272v1
- Date: Sat, 02 Aug 2025 09:09:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.797388
- Title: PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation
- Title(参考訳): PromptSafe: 安全なテキスト・画像生成のためのGated Prompt Tuning
- Authors: Zonglei Jing, Xiao Yang, Xiaoqian Li, Siyuan Liang, Aishan Liu, Mingchuan Zhang, Xianglong Liu,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
- 参考スコア(独自算出の注目度): 30.2092299298228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) models have demonstrated remarkable generative capabilities but remain vulnerable to producing not-safe-for-work (NSFW) content, such as violent or explicit imagery. While recent moderation efforts have introduced soft prompt-guided tuning by appending defensive tokens to the input, these approaches often rely on large-scale curated image-text datasets and apply static, one-size-fits-all defenses at inference time. However, this results not only in high computational cost and degraded benign image quality, but also in limited adaptability to the diverse and nuanced safety requirements of real-world prompts. To address these challenges, we propose PromptSafe, a gated prompt tuning framework that combines a lightweight, text-only supervised soft embedding with an inference-time gated control network. Instead of training on expensive image-text datasets, we first rewrite unsafe prompts into semantically aligned but safe alternatives using an LLM, constructing an efficient text-only training corpus. Based on this, we optimize a universal soft prompt that repels unsafe and attracts safe embeddings during the diffusion denoising process. To avoid over-suppressing benign prompts, we introduce a gated mechanism that adaptively adjusts the defensive strength based on estimated prompt toxicity, thereby aligning defense intensity with prompt risk and ensuring strong protection for harmful inputs while preserving benign generation quality. Extensive experiments across multiple benchmarks and T2I models show that PromptSafe achieves a SOTA unsafe generation rate (2.36%), while preserving high benign fidelity. Furthermore, PromptSafe demonstrates strong generalization to unseen harmful categories, robust transferability across diffusion model architectures, and resilience under adaptive adversarial attacks, highlighting its practical value for safe and scalable deployment.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、顕著な生成能力を示したが、暴力的または明示的なイメージのような、安全でない作業用コンテンツ(NSFW)の生成に弱いままである。
最近のモデレーションでは、防御トークンを入力に追加することでソフトなプロンプト誘導チューニングを導入しているが、これらのアプローチは大規模にキュレートされた画像テキストデータセットに頼り、推論時に静的でワンサイズな全ディフェンスを適用することが多い。
しかし、これは高い計算コストと劣化した画像品質だけでなく、現実世界のプロンプトの多様かつニュアンスな安全性要件への適応性にも限界がある。
これらの課題に対処するために,テキストのみを教師付きで軽量なソフト埋め込みと推論時ゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
高価な画像テキストデータセットをトレーニングする代わりに、私たちはまず安全でないプロンプトをLLMを使ってセマンティックに整列しているが安全な代替に書き直し、効率的なテキストのみのトレーニングコーパスを構築しました。
そこで本研究では,拡散復調過程において,安全性を損なう万能ソフトプロンプトを最適化し,安全な埋め込みを惹きつける。
ベニグアプロンプトの過剰抑制を回避するため、推定した即効毒性に基づいて防御強度を適応的に調整するゲート機構を導入し、ベニグアジェネレーション品質を維持しつつ、防御強度を即時リスクに調整し、有害な入力に対する強力な保護を確保する。
複数のベンチマークとT2Iモデルにわたる大規模な実験により、PromptSafeはSOTAの安全でない生成率(2.36%)を達成し、高い良性を維持していることが示された。
さらに、PromptSafeは有害なカテゴリ、拡散モデルアーキテクチャ間の堅牢な転送可能性、適応的敵攻撃によるレジリエンスを強く一般化し、安全でスケーラブルなデプロイメントのための実用的価値を強調している。
関連論文リスト
- Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。
私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。
我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Distorting Embedding Space for Safety: A Defense Mechanism for Adversarially Robust Diffusion Models [4.5656369638728656]
Distorting Embedding Space (DES) はテキストエンコーダベースの防御機構である。
DESは、アンセーフプロンプトを用いてテキストエンコーダから抽出されたアンセーフな埋め込みを、慎重に計算された安全な埋め込み領域に変換する。
DESはまた、敵攻撃に対する堅牢性を高めるために、中立的な埋め込みと整列することで、即時ヌードを用いて抽出されたヌード埋め込みを中和する。
論文 参考訳(メタデータ) (2025-01-31T04:14:05Z) - PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models [15.510489107957005]
テキスト・ツー・イメージ(T2I)モデルは、特にNSFW(not-safe-for-work)コンテンツの生成において、誤用に対して脆弱であることが示されている。
本稿では,大規模言語モデル(LLM)におけるシステムプロンプト機構からインスピレーションを得る新しいコンテンツモデレーション手法であるPromptGuardを提案する。
論文 参考訳(メタデータ) (2025-01-07T05:39:21Z) - Safeguarding Text-to-Image Generation via Inference-Time Prompt-Noise Optimization [29.378296359782585]
テキスト・ツー・イメージ(T2I)拡散モデルはテキスト・プロンプトに基づいて高品質で多様な画像を生成する能力で広く認識されている。
T2Iモデルの不適切な画像生成を防ぐための現在の取り組みは、バイパスが容易であり、敵の攻撃に対して脆弱である。
本稿では,PNO(Prompt-Noise Optimization)と呼ばれる,安全でない画像生成を緩和する新しい学習不要手法を提案する。
論文 参考訳(メタデータ) (2024-12-05T05:12:30Z) - SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。