論文の概要: SafeCtrl: Region-Aware Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress
- arxiv url: http://arxiv.org/abs/2604.03941v1
- Date: Sun, 05 Apr 2026 03:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.842135
- Title: SafeCtrl: Region-Aware Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress
- Title(参考訳): SafeCtrl: テクスト間拡散のための領域認識型安全制御
- Authors: Lingyun Zhang, Yu Xie, Zhongli Fang, Yu Liu, Ping Chen,
- Abstract要約: 本研究では,検出-Then-Suppressパラダイム上で動作する地域意識型安全制御フレームワークであるSafeCtrlを提案する。
グローバルな安全介入とは異なり、SafeCtrlはまず、特定のリスク領域を正確にローカライズするために注意誘導検出モジュールを使用する。
SafeCtrlは,最先端の手法に比べて安全性と忠実さのトレードオフが優れていることを示す。
- 参考スコア(独自算出の注目度): 13.834468340496414
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The widespread deployment of text-to-image diffusion models is significantly challenged by the generation of visually harmful content, such as sexually explicit content, violence, and horror imagery. Common safety interventions, ranging from input filtering to model concept erasure, often suffer from two critical limitations: (1) a severe trade-off between safety and context preservation, where removing unsafe concepts degrades the fidelity of the safe content, and (2) vulnerability to adversarial attacks, where safety mechanisms are easily bypassed. To address these challenges, we propose SafeCtrl, a Region-Aware safety control framework operating on a Detect-Then-Suppress paradigm. Unlike global safety interventions, SafeCtrl first employs an attention-guided Detect module to precisely localize specific risk regions. Subsequently, a localized Suppress module, optimized via image-level Direct Preference Optimization (DPO), neutralizes harmful semantics only within the detected areas, effectively transforming unsafe objects into safe alternatives while leaving the surrounding context intact. Extensive experiments across multiple risk categories demonstrate that SafeCtrl achieves a superior trade-off between safety and fidelity compared to state-of-the-art methods. Crucially, our approach exhibits improved resilience against adversarial prompt attacks, offering a precise and robust solution for responsible generation.
- Abstract(参考訳): テキストから画像への拡散モデルの普及は、性的に露骨なコンテンツ、暴力、ホラーイメージなどの視覚的に有害なコンテンツの生成によって著しく困難である。
入力フィルタリングからモデル消去まで、一般的な安全介入は、(1)安全とコンテキスト保存の激しいトレードオフ、(2)安全概念の完全性を低下させる、(2)安全メカニズムが容易に回避される敵攻撃に対する脆弱性、の2つの重大な制限に悩まされることが多い。
これらの課題に対処するため,本研究では,検出-Then-Suppressパラダイムで動作する地域対応安全制御フレームワークであるSafeCtrlを提案する。
グローバルな安全介入とは異なり、SafeCtrlはまず、特定のリスク領域を正確にローカライズするために注意誘導検出モジュールを使用する。
その後、画像レベルの直接参照最適化(DPO)によって最適化されたローカライズされたSuppressモジュールは、検出された領域内でのみ有害なセマンティクスを中和し、周囲のコンテキストをそのままにして、安全でないオブジェクトを安全な代替物に効果的に変換する。
複数のリスクカテゴリにわたる大規模な実験により、SafeCtrlは最先端の手法に比べて安全性と忠実さのトレードオフが優れていることが示された。
重要なことは、我々のアプローチは敵の迅速な攻撃に対するレジリエンスの改善を示し、責任を負う世代に対して正確かつ堅牢な解決策を提供する。
関連論文リスト
- Diagnosing and Repairing Unsafe Channels in Vision-Language Models via Causal Discovery and Dual-Modal Safety Subspace Projection [21.411964269762432]
本稿では,LVLM(Large Vision-Language Models)における安全でないチャネルの診断と修復のための包括的フレームワークを提案する。
まず、安全でない行動に因果的に責任を負うニューロンや層を特定するために、因果媒介分析を行う。
本稿では、視覚的・テキスト的両モードの汎用安全部分空間を学習するデュアルモーダル・セーフティ・サブスペース・プロジェクション法を提案する。
論文 参考訳(メタデータ) (2026-03-28T11:31:16Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - SafeCtrl: Region-Based Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress [48.20360860166279]
SafeCtrlは軽量で非侵襲的なプラグインで、まず安全でないコンテンツを正確にローカライズします。
強硬なA-to-B置換を行う代わりに、SafeCtrlは有害なセマンティクスを抑える。
論文 参考訳(メタデータ) (2025-08-16T04:28:52Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。