論文の概要: SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2404.06666v3
- Date: Thu, 17 Oct 2024 07:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:17:41.725762
- Title: SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models
- Title(参考訳): SafeGen: テキスト・ツー・イメージモデルにおける性的に明示的なコンテンツ生成の軽減
- Authors: Xinfeng Li, Yuchen Yang, Jiangyi Deng, Chen Yan, Yanjiao Chen, Xiaoyu Ji, Wenyuan Xu,
- Abstract要約: テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。
我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
- 参考スコア(独自算出の注目度): 28.23494821842336
- License:
- Abstract: Text-to-image (T2I) models, such as Stable Diffusion, have exhibited remarkable performance in generating high-quality images from text descriptions in recent years. However, text-to-image models may be tricked into generating not-safe-for-work (NSFW) content, particularly in sexually explicit scenarios. Existing countermeasures mostly focus on filtering inappropriate inputs and outputs, or suppressing improper text embeddings, which can block sexually explicit content (e.g., naked) but may still be vulnerable to adversarial prompts -- inputs that appear innocent but are ill-intended. In this paper, we present SafeGen, a framework to mitigate sexual content generation by text-to-image models in a text-agnostic manner. The key idea is to eliminate explicit visual representations from the model regardless of the text input. In this way, the text-to-image model is resistant to adversarial prompts since such unsafe visual representations are obstructed from within. Extensive experiments conducted on four datasets and large-scale user studies demonstrate SafeGen's effectiveness in mitigating sexually explicit content generation while preserving the high-fidelity of benign images. SafeGen outperforms eight state-of-the-art baseline methods and achieves 99.4% sexual content removal performance. Furthermore, our constructed benchmark of adversarial prompts provides a basis for future development and evaluation of anti-NSFW-generation methods.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは,近年,テキスト記述から高品質な画像を生成する上で,顕著な性能を発揮している。
しかし、テキスト・ツー・イメージ・モデルは、特に性的に明示的なシナリオにおいて、安全でない作業用コンテンツ(NSFW)を生成するために騙される可能性がある。
既存の対策は主に、不適切な入力や出力のフィルタリングや、性的に明示的な内容(例えば裸)をブロックできる不適切なテキスト埋め込みの抑制に重点を置いている。
本稿では,テキスト・ツー・イメージ・モデルによる性的コンテンツ生成をテキストに依存しない方法で緩和するフレームワークであるSafeGenを提案する。
鍵となる考え方は、テキスト入力にかかわらず、モデルから明示的な視覚的表現を取り除くことである。
このようにして、テキスト・ツー・イメージ・モデルは、そのような安全でない視覚表現が内部から妨げられているため、敵のプロンプトに耐性がある。
4つのデータセットと大規模ユーザスタディで実施された大規模な実験は、良性画像の高忠実性を保ちながら、性的に明示的なコンテンツ生成を緩和するSafeGenの有効性を示している。
SafeGenは8つの最先端のベースラインメソッドを上回り、99.4%の性的なコンテンツ削除パフォーマンスを達成している。
さらに,我々の構築した対向的プロンプトのベンチマークは,抗NSFW生成法の開発と評価の基盤となる。
関連論文リスト
- ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - EIUP: A Training-Free Approach to Erase Non-Compliant Concepts Conditioned on Implicit Unsafe Prompts [32.590822043053734]
非有毒なテキストは、暗黙の安全でないプロンプトと呼ばれる非準拠のイメージを生成するリスクを伴っている。
我々は、非準拠の概念を消去プロンプトに組み込む、単純で効果的なアプローチを提案する。
本手法は,画像の忠実度を高いスコアで評価しながら,優れた消去効果を示す。
論文 参考訳(メタデータ) (2024-08-02T05:17:14Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Get What You Want, Not What You Don't: Image Content Suppression for
Text-to-Image Diffusion Models [86.92711729969488]
テキスト埋め込みの操作方法を分析し、不要なコンテンツを除去する。
第1は、テキスト埋め込み行列を正規化し、望ましくないコンテンツを効果的に抑制する。
第2の方法は、プロンプトの不要なコンテンツ生成をさらに抑制し、所望のコンテンツの生成を促進することである。
論文 参考訳(メタデータ) (2024-02-08T03:15:06Z) - Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models [42.19184265811366]
本研究では,NSFW入力に対する感度を低下させることにより,視覚・言語モデルの安全性を高める新しいアプローチを提案する。
安全な文と安全でない文の変換を訓練した大規模言語モデルから得られた合成データに対して,CLIPモデルを微調整することで,これを実現できることを示す。
論文 参考訳(メタデータ) (2023-11-27T19:02:17Z) - Towards Harmful Erotic Content Detection through Coreference-Driven
Contextual Analysis [0.0]
本稿では,エロティックコンテンツ中の有害な文脈的手がかりを特定するための,ニューラルネットワークとルールベースのコンテキスト認識システムを提案する。
ポーランド語テキストでテストした本モデルでは,84%の有望な精度と80%のリコールが得られた。
論文 参考訳(メタデータ) (2023-10-22T15:19:04Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z) - Safe Latent Diffusion: Mitigating Inappropriate Degeneration in
Diffusion Models [18.701950647429]
テキスト条件付き画像生成モデルは、劣化した人間の行動に悩まされる。
我々は、これらの望ましくない副作用に対処するために、安全な潜伏拡散(SLD)を提示する。
拡散過程において,SLDは不適切な画像部分を取り除き,抑制することを示す。
論文 参考訳(メタデータ) (2022-11-09T18:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。