Fugu-MT 論文翻訳(概要): SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models

論文の概要: SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models

arxiv url: http://arxiv.org/abs/2404.06666v3
Date: Thu, 17 Oct 2024 07:28:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.776496
Title: SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models
Title（参考訳）: SafeGen: テキスト・ツー・イメージモデルにおける性的に明示的なコンテンツ生成の軽減
Authors: Xinfeng Li, Yuchen Yang, Jiangyi Deng, Chen Yan, Yanjiao Chen, Xiaoyu Ji, Wenyuan Xu,
Abstract要約: テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
参考スコア（独自算出の注目度）: 28.23494821842336
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Text-to-image (T2I) models, such as Stable Diffusion, have exhibited remarkable performance in generating high-quality images from text descriptions in recent years. However, text-to-image models may be tricked into generating not-safe-for-work (NSFW) content, particularly in sexually explicit scenarios. Existing countermeasures mostly focus on filtering inappropriate inputs and outputs, or suppressing improper text embeddings, which can block sexually explicit content (e.g., naked) but may still be vulnerable to adversarial prompts -- inputs that appear innocent but are ill-intended. In this paper, we present SafeGen, a framework to mitigate sexual content generation by text-to-image models in a text-agnostic manner. The key idea is to eliminate explicit visual representations from the model regardless of the text input. In this way, the text-to-image model is resistant to adversarial prompts since such unsafe visual representations are obstructed from within. Extensive experiments conducted on four datasets and large-scale user studies demonstrate SafeGen's effectiveness in mitigating sexually explicit content generation while preserving the high-fidelity of benign images. SafeGen outperforms eight state-of-the-art baseline methods and achieves 99.4% sexual content removal performance. Furthermore, our constructed benchmark of adversarial prompts provides a basis for future development and evaluation of anti-NSFW-generation methods.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)モデルは,近年,テキスト記述から高品質な画像を生成する上で,顕著な性能を発揮している。しかし、テキスト・ツー・イメージ・モデルは、特に性的に明示的なシナリオにおいて、安全でない作業用コンテンツ(NSFW)を生成するために騙される可能性がある。既存の対策は主に、不適切な入力や出力のフィルタリングや、性的に明示的な内容(例えば裸)をブロックできる不適切なテキスト埋め込みの抑制に重点を置いている。本稿では,テキスト・ツー・イメージ・モデルによる性的コンテンツ生成をテキストに依存しない方法で緩和するフレームワークであるSafeGenを提案する。鍵となる考え方は、テキスト入力にかかわらず、モデルから明示的な視覚的表現を取り除くことである。このようにして、テキスト・ツー・イメージ・モデルは、そのような安全でない視覚表現が内部から妨げられているため、敵のプロンプトに耐性がある。 4つのデータセットと大規模ユーザスタディで実施された大規模な実験は、良性画像の高忠実性を保ちながら、性的に明示的なコンテンツ生成を緩和するSafeGenの有効性を示している。 SafeGenは8つの最先端のベースラインメソッドを上回り、99.4%の性的なコンテンツ削除パフォーマンスを達成している。さらに,我々の構築した対向的プロンプトのベンチマークは,抗NSFW生成法の開発と評価の基盤となる。

関連論文リスト

NSFW-Classifier Guided Prompt Sanitization for Safe Text-to-Image Generation [47.03824997129498]
大きな言語モデルの"jailbreak"攻撃は、微妙な迅速な修正を通じて制限をバイパスする。 PromptSanは、モデルアーキテクチャを変更することなく有害なプロンプトを解毒するための新しいアプローチである。 PromptSanは、複数のメトリクスにわたる有害なコンテンツ生成を減らすことで、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-23T06:17:30Z)
Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images [5.150015329535525]
我々は、画像内に埋め込まれたNSFWテキストの生成という、新たな脅威を識別する。これには侮辱、人種的暴行、性的暴行といった攻撃的な言葉が含まれる。既存の緩和技術は、テキスト生成を著しく劣化させながら有害なテキスト生成を防ぐことができない。この領域の研究を進めるために、画像中のNSFWテキスト生成を評価するためのオープンソースのベンチマークであるToxicBenchを紹介する。
論文参考訳（メタデータ） (2025-02-07T16:39:39Z)
CogMorph: Cognitive Morphing Attacks for Text-to-Image Models [65.38747950692752]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルに固有の有意かつ未認識の倫理的リスクを明らかにする。我々は,T2Iモデルを操作して,本来の中核領域を保持するが有害または有害な文脈要素を埋め込んだ画像を生成する,CogMorph(CogMorph)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-21T01:45:56Z)
CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文参考訳（メタデータ） (2025-01-09T16:43:21Z)
Buster: Implanting Semantic Backdoor into Text Encoder to Mitigate NSFW Content Generation [15.703408347981776]
NSFWコンテンツ生成を防止するために,テキストエンコーダにバックドアを注入するTextitBusterという革新的なフレームワークを提案する。 Busterは明示的なプロンプトではなく深いセマンティック情報を活用し、NSFWプロンプトをターゲットの良性プロンプトにリダイレクトする。実験の結果,バスターは9つの最先端ベースラインを上回り,少なくとも91.2%のNSFW除去率を達成できた。
論文参考訳（メタデータ） (2024-12-10T07:18:51Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [13.481343482138888]
視覚に依存しない安全な生成フレームワーク Embedding Sanitizer (ES) を提案する。 ESは、迅速な埋め込みから不適切な概念を消去することに焦点を当て、安全な生成のためにモデルをガイドするために、衛生的な埋め込みを使用する。 ESは、生成品質を維持しつつ、解釈性と制御性の観点から既存の安全ガードを著しく上回っている。
論文参考訳（メタデータ） (2024-11-15T16:29:02Z)
ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文参考訳（メタデータ） (2024-10-04T19:37:56Z)
EIUP: A Training-Free Approach to Erase Non-Compliant Concepts Conditioned on Implicit Unsafe Prompts [32.590822043053734]
非有毒なテキストは、暗黙の安全でないプロンプトと呼ばれる非準拠のイメージを生成するリスクを伴っている。我々は、非準拠の概念を消去プロンプトに組み込む、単純で効果的なアプローチを提案する。本手法は,画像の忠実度を高いスコアで評価しながら,優れた消去効果を示す。
論文参考訳（メタデータ） (2024-08-02T05:17:14Z)
Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文参考訳（メタデータ） (2024-04-11T17:59:52Z)
Get What You Want, Not What You Don't: Image Content Suppression for Text-to-Image Diffusion Models [86.92711729969488]
テキスト埋め込みの操作方法を分析し、不要なコンテンツを除去する。第1は、テキスト埋め込み行列を正規化し、望ましくないコンテンツを効果的に抑制する。第2の方法は、プロンプトの不要なコンテンツ生成をさらに抑制し、所望のコンテンツの生成を促進することである。
論文参考訳（メタデータ） (2024-02-08T03:15:06Z)
Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models [42.19184265811366]
本研究では,NSFW入力に対する感度を低下させることにより,視覚・言語モデルの安全性を高める新しいアプローチを提案する。安全な文と安全でない文の変換を訓練した大規模言語モデルから得られた合成データに対して,CLIPモデルを微調整することで,これを実現できることを示す。
論文参考訳（メタデータ） (2023-11-27T19:02:17Z)
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文参考訳（メタデータ） (2023-09-12T11:19:36Z)
ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。 Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文参考訳（メタデータ） (2023-09-11T15:54:30Z)
BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文参考訳（メタデータ） (2023-07-31T08:34:24Z)
Constructing Highly Inductive Contexts for Dialogue Safety through Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文参考訳（メタデータ） (2022-12-04T12:23:41Z)
Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models [18.701950647429]
テキスト条件付き画像生成モデルは、劣化した人間の行動に悩まされる。我々は、これらの望ましくない副作用に対処するために、安全な潜伏拡散(SLD)を提示する。拡散過程において,SLDは不適切な画像部分を取り除き,抑制することを示す。
論文参考訳（メタデータ） (2022-11-09T18:54:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。