Fugu-MT 論文翻訳(概要): Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models

論文の概要: Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models

arxiv url: http://arxiv.org/abs/2305.13873v2
Date: Wed, 16 Aug 2023 11:16:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 16:52:52.522555
Title: Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models
Title（参考訳）: 安全でない拡散:テキスト・ツー・イメージモデルから安全でない画像と有害なミームの生成について
Authors: Yiting Qu, Xinyue Shen, Xinlei He, Michael Backes, Savvas Zannettou, Yang Zhang
Abstract要約: Stable DiffusionやDALLE$cdot$2といった最先端のテキスト・トゥ・イメージモデルは、人々が視覚コンテンツを生成する方法に革命をもたらしている。テキスト・ツー・イメージ・モデルから、安全でない画像の生成と憎しみに満ちたミームをデミスティフィケートすることに注力する。
参考スコア（独自算出の注目度）: 44.10698490171833
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: State-of-the-art Text-to-Image models like Stable Diffusion and DALLE$\cdot$2 are revolutionizing how people generate visual content. At the same time, society has serious concerns about how adversaries can exploit such models to generate unsafe images. In this work, we focus on demystifying the generation of unsafe images and hateful memes from Text-to-Image models. We first construct a typology of unsafe images consisting of five categories (sexually explicit, violent, disturbing, hateful, and political). Then, we assess the proportion of unsafe images generated by four advanced Text-to-Image models using four prompt datasets. We find that these models can generate a substantial percentage of unsafe images; across four models and four prompt datasets, 14.56% of all generated images are unsafe. When comparing the four models, we find different risk levels, with Stable Diffusion being the most prone to generating unsafe content (18.92% of all generated images are unsafe). Given Stable Diffusion's tendency to generate more unsafe content, we evaluate its potential to generate hateful meme variants if exploited by an adversary to attack a specific individual or community. We employ three image editing methods, DreamBooth, Textual Inversion, and SDEdit, which are supported by Stable Diffusion. Our evaluation result shows that 24% of the generated images using DreamBooth are hateful meme variants that present the features of the original hateful meme and the target individual/community; these generated images are comparable to hateful meme variants collected from the real world. Overall, our results demonstrate that the danger of large-scale generation of unsafe images is imminent. We discuss several mitigating measures, such as curating training data, regulating prompts, and implementing safety filters, and encourage better safeguard tools to be developed to prevent unsafe generation.
Abstract（参考訳）: 安定拡散やdalle$\cdot$2のような最先端のテキスト対画像モデルは、人々がビジュアルコンテンツを生成する方法に革命をもたらしている。同時に、社会は、敵がそのようなモデルを使って安全でない画像を生成する方法に深刻な懸念を抱いている。本研究では,テキスト・ツー・イメージ・モデルから安全でない画像と憎しみのあるミームを生成することに焦点を当てる。まず5つのカテゴリー(性的に明示的、暴力的、乱暴、憎悪的、政治的)からなる安全でないイメージのタイプポロジーを構築する。次に、4つのプロンプトデータセットを用いて、4つの高度なテキスト対画像モデルによって生成される安全でない画像の割合を評価する。 4つのモデルと4つのプロンプトデータセットにおいて、生成された画像の14.56%が安全ではない。 4つのモデルを比較すると、異なるリスクレベルが見つかり、安定拡散は安全でないコンテンツを生成する最も起こりやすい(生成した画像の18.92%は安全でない)。安定した拡散がより安全でないコンテンツを生成する傾向を考えると、敵が特定の個人やコミュニティを攻撃するために悪用された場合、その可能性を評価できる。我々はDreamBooth, Textual Inversion, SDEditの3つの画像編集手法を採用し, 安定拡散をサポートする。以上の結果から,DreamBoothを用いた画像の24%は,本来の憎悪ミームの特徴と,対象とする個人・コミュニティの特徴を示す憎悪ミームの変種であり,これらの画像は実世界から収集された憎悪ミームの変種に匹敵するものであることが示された。全体として,安全でない画像の大規模生成の危険性が差し迫っていることが示された。トレーニングデータのキュレーション,プロンプトの調整,安全フィルタの実装など,いくつかの対策について検討し,安全でない生成を防止するために,より優れた安全対策ツールの開発を奨励する。

関連論文リスト

SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。 SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。 SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文参考訳（メタデータ） (2025-10-05T10:24:48Z)
Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset [20.758637391023345]
安全かつNSFWなテキストとイメージを区別するためにマルチモーダルディフェンスが開発された。我々のモデルは精度とリコールの観点から既存のSOTA NSFW検出手法に対して良好に機能する。
論文参考訳（メタデータ） (2025-04-16T02:10:42Z)
ShieldGemma 2: Robust and Tractable Image Content Moderation [63.36923375135708]
ShieldGemma 2はGemma 3上に構築された4Bパラメータの画像コンテンツモデレーションモデルである。このモデルでは、Sexually Explicit、Violence & Gore、Dangerous Contentの合成画像に対して、以下の主要な危険カテゴリにわたって堅牢な安全性リスク予測を提供する。
論文参考訳（メタデータ） (2025-04-01T18:00:20Z)
SafeText: Safe Text-to-image Models via Aligning the Text Encoder [38.14026164194725]
テキスト・ツー・イメージモデルは、安全でないプロンプトが提示されたときに有害な画像を生成することができる。拡散モジュールではなくテキストエンコーダを微調整する新しいアライメント手法であるSafeTextを提案する。以上の結果から,SafeTextは画像に小さな影響を与えない有害な画像生成を効果的に防止し,安全なプロンプトを可能にすることが示唆された。
論文参考訳（メタデータ） (2025-02-28T01:02:57Z)
Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images [5.150015329535525]
すべての最先端DM(SD3、SDXL、Flux、DeepFloyd IF)がこの問題に対して脆弱であることを示す。本稿では,DMのテキスト生成層のみをターゲットとしたファインチューニング手法を提案する。この領域の研究を進めるために、画像中のNSFWテキスト生成を評価するためのオープンソースのベンチマークであるToxicBenchをリリースする。
論文参考訳（メタデータ） (2025-02-07T16:39:39Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文参考訳（メタデータ） (2024-10-04T19:37:56Z)
Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step [62.82566977845765]
ステップバイステップの編集プロセスを通じて画像生成モデルを損なう、Chain-of-Jailbreak (CoJ)アタックと呼ばれる新しいジェイルブレイク手法を提案する。我々のCoJ攻撃手法は、60%以上のケースでモデルの保護を回避できる。また,効果的なプロンプトベース手法であるThink Twice Promptingを提案する。
論文参考訳（メタデータ） (2024-10-04T19:04:43Z)
Multimodal Pragmatic Jailbreak on Text-to-image Models [43.67831238116829]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。 2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
論文参考訳（メタデータ） (2024-09-27T21:23:46Z)
Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文参考訳（メタデータ） (2024-04-11T17:59:52Z)
SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文参考訳（メタデータ） (2024-04-10T00:26:08Z)
On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts [38.63253101205306]
従来の研究は、操作されたプロンプトがテキスト・ツー・イメージ・モデルを用いて安全でない画像を生成することを実証してきた。基本攻撃と実用性維持攻撃の2つの毒素攻撃を提案する。本研究は,実世界のシナリオにおけるテキスト・ツー・イメージ・モデル導入の潜在的なリスクを明らかにするものである。
論文参考訳（メタデータ） (2023-10-25T13:10:44Z)
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文参考訳（メタデータ） (2023-09-12T11:19:36Z)
Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文参考訳（メタデータ） (2023-07-12T07:48:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。