論文の概要: Safe-Control: A Safety Patch for Mitigating Unsafe Content in Text-to-Image Generation Models
- arxiv url: http://arxiv.org/abs/2508.21099v1
- Date: Thu, 28 Aug 2025 04:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.82529
- Title: Safe-Control: A Safety Patch for Mitigating Unsafe Content in Text-to-Image Generation Models
- Title(参考訳): Safe-Control:テキスト・画像生成モデルにおける安全でないコンテンツを緩和するための安全パッチ
- Authors: Xiangtao Meng, Yingkai Dong, Ning Yu, Li Wang, Zheng Li, Shanqing Guo,
- Abstract要約: 我々は,テキスト・ツー・イメージ(T2I)モデルにおいて,安全でないコンテンツ生成を緩和するために設計された,革新的なプラグ・アンド・プレイ安全パッチであるSafe-Controlを紹介する。
データ駆動戦略と安全を意識した条件を使用して、Safe-ControlはロックされたT2Iモデルに安全制御信号を注入し、パッチのような方法で更新する。
プラグ・アンド・プレイの設計により適応性も確保され、同様のデノナイジングアーキテクチャの他のT2Iモデルと互換性がある。
- 参考スコア(独自算出の注目度): 15.669176844673865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the advancements in Text-to-Image (T2I) generation models, their potential for misuse or even abuse raises serious safety concerns. Model developers have made tremendous efforts to introduce safety mechanisms that can address these concerns in T2I models. However, the existing safety mechanisms, whether external or internal, either remain susceptible to evasion under distribution shifts or require extensive model-specific adjustments. To address these limitations, we introduce Safe-Control, an innovative plug-and-play safety patch designed to mitigate unsafe content generation in T2I models. Using data-driven strategies and safety-aware conditions, Safe-Control injects safety control signals into the locked T2I model, acting as an update in a patch-like manner. Model developers can also construct various safety patches to meet the evolving safety requirements, which can be flexibly merged into a single, unified patch. Its plug-and-play design further ensures adaptability, making it compatible with other T2I models of similar denoising architecture. We conduct extensive evaluations on six diverse and public T2I models. Empirical results highlight that Safe-Control is effective in reducing unsafe content generation across six diverse T2I models with similar generative architectures, yet it successfully maintains the quality and text alignment of benign images. Compared to seven state-of-the-art safety mechanisms, including both external and internal defenses, Safe-Control significantly outperforms all baselines in reducing unsafe content generation. For example, it reduces the probability of unsafe content generation to 7%, compared to approximately 20% for most baseline methods, under both unsafe prompts and the latest adversarial attacks.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルの進歩にもかかわらず、その誤用や虐待の可能性は深刻な安全上の懸念を引き起こす。
モデル開発者は、T2Iモデルでこれらの懸念に対処できる安全メカニズムの導入に多大な努力を払っています。
しかし、既存の安全メカニズムは、外部であれ内部であれ、分散シフトの下での回避に影響を受けやすいか、あるいはモデル固有の広範囲な調整を必要とするかのどちらかである。
これらの制限に対処するために,T2Iモデルにおける安全でないコンテンツ生成を軽減すべく設計された,革新的なプラグアンドプレイ安全パッチであるSafe-Controlを導入する。
データ駆動戦略と安全を意識した条件を使用して、Safe-ControlはロックされたT2Iモデルに安全制御信号を注入し、パッチのような方法で更新する。
モデル開発者は、進化する安全要件を満たすために、さまざまな安全パッチを構築することもできる。
プラグ・アンド・プレイの設計により適応性も確保され、同様のデノナイジングアーキテクチャの他のT2Iモデルと互換性がある。
6つの多種多様および公的なT2Iモデルに対して広範な評価を行う。
実験結果によると、Safe-Controlは、同様の生成アーキテクチャを持つ6つの異なるT2Iモデルにおいて、安全でないコンテント生成を減らすのに有効であるが、良質な画像の品質とテキストアライメントの維持に成功している。
外部防御と内部防御の両方を含む、最先端の7つの安全メカニズムと比較して、Safe-Controlは、安全でないコンテンツ生成を減らすために、すべてのベースラインを著しく上回っている。
例えば、安全でないコンテンツ生成の確率を7%に削減し、安全でないプロンプトと最新の敵攻撃の両方で、ほとんどのベースラインメソッドで約20%に削減する。
関連論文リスト
- GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - AlignGuard: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
Text-to-image (T2I) モデルは広く使われているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
本稿では,T2Iモデルの安全アライメント手法であるAlignGuardを紹介する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。
これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。
T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T08:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。