論文の概要: SafeCtrl: Region-Based Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress
- arxiv url: http://arxiv.org/abs/2508.11904v1
- Date: Sat, 16 Aug 2025 04:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.442491
- Title: SafeCtrl: Region-Based Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress
- Title(参考訳): SafeCtrl: テクスト間拡散のための領域ベース安全制御
- Authors: Lingyun Zhang, Yu Xie, Yanwei Fu, Ping Chen,
- Abstract要約: SafeCtrlは軽量で非侵襲的なプラグインで、まず安全でないコンテンツを正確にローカライズします。
強硬なA-to-B置換を行う代わりに、SafeCtrlは有害なセマンティクスを抑える。
- 参考スコア(独自算出の注目度): 48.20360860166279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread deployment of text-to-image models is challenged by their potential to generate harmful content. While existing safety methods, such as prompt rewriting or model fine-tuning, provide valuable interventions, they often introduce a trade-off between safety and fidelity. Recent localization-based approaches have shown promise, yet their reliance on explicit ``concept replacement" can sometimes lead to semantic incongruity. To address these limitations, we explore a more flexible detect-then-suppress paradigm. We introduce SafeCtrl, a lightweight, non-intrusive plugin that first precisely localizes unsafe content. Instead of performing a hard A-to-B substitution, SafeCtrl then suppresses the harmful semantics, allowing the generative process to naturally and coherently resolve into a safe, context-aware alternative. A key aspect of our work is a novel training strategy using Direct Preference Optimization (DPO). We leverage readily available, image-level preference data to train our module, enabling it to learn nuanced suppression behaviors and perform region-guided interventions at inference without requiring costly, pixel-level annotations. Extensive experiments show that SafeCtrl significantly outperforms state-of-the-art methods in both safety efficacy and fidelity preservation. Our findings suggest that decoupled, suppression-based control is a highly effective and scalable direction for building more responsible generative models.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルの広範な展開は、有害なコンテンツを生成する可能性に悩まされている。
即時書き換えやモデル微調整のような既存の安全手法は貴重な介入を提供するが、安全と忠実さのトレードオフをしばしば導入する。
最近のローカライゼーションベースのアプローチは、将来性を示しているが、明示的な ‘概念置換’ に依存しているため、セマンティックな矛盾が生じることがある。
これらの制限に対処するため、より柔軟な検出-then-suppressパラダイムを探索する。
SafeCtrlは軽量で非侵襲的なプラグインで、まず安全でないコンテンツを正確にローカライズします。
強硬なA-to-B置換を行う代わりに、SafeCtrlは有害なセマンティクスを抑える。
我々の研究の重要な側面は、DPO(Direct Preference Optimization)を使った新しいトレーニング戦略です。
我々は、手軽に利用できる画像レベルの嗜好データを利用してモジュールをトレーニングし、不規則な抑制行動を学び、高価なピクセルレベルのアノテーションを必要とせず、推論時に領域誘導的な介入を行うことができる。
大規模な実験の結果、SafeCtrlは安全性と忠実さの両面で最先端の手法を大きく上回っていることがわかった。
本研究は,より責任のある生成モデルを構築する上で,非結合型抑制型制御が極めて効果的でスケーラブルな方向であることを示唆する。
関連論文リスト
- PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Responsible Diffusion Models via Constraining Text Embeddings within Safe Regions [35.28819408507869]
また、NSFW(Not Safe for Work)コンテンツを作成し、社会的偏見を示す可能性を懸念している。
本稿では,安全な領域に埋め込まれたテキストの埋め込みを制限するために,埋め込み空間における意味方向ベクトルを同定する,新たな自己発見手法を提案する。
本手法は, 拡散モデルにより生ずるNSFW含量と社会的バイアスを, 最先端のベースラインと比較して効果的に低減することができる。
論文 参考訳(メタデータ) (2025-05-21T12:10:26Z) - Hyperbolic Safety-Aware Vision-Language Models [44.06996781749013]
双曲空間の本質的階層的特性を活用することによって、未学習から認知パラダイムへ移行する新しいアプローチを導入する。
我々のHySACであるHyperbolic Safety-Aware CLIPは、安全な画像テキストペアと安全でない画像テキストペア間の階層的および非対称的関係をモデル化するために、entailment loss関数を使用します。
我々のアプローチは、安全性の認識を向上するだけでなく、視覚言語モデルにおけるコンテンツモデレーションのためのより適応的で解釈可能なフレームワークも確立します。
論文 参考訳(メタデータ) (2025-03-15T13:18:04Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。