論文の概要: Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes
From Text-To-Image Models
- arxiv url: http://arxiv.org/abs/2305.13873v1
- Date: Tue, 23 May 2023 09:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:17:17.089189
- Title: Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes
From Text-To-Image Models
- Title(参考訳): 安全でない拡散:テキスト・ツー・イメージモデルから安全でない画像と有害なミームの生成について
- Authors: Yiting Qu, Xinyue Shen, Xinlei He, Michael Backes, Savvas Zannettou,
Yang Zhang
- Abstract要約: Stable DiffusionやDALLE$cdot$2といった最先端のテキスト・トゥ・イメージモデルは、人々が視覚コンテンツを生成する方法に革命をもたらしている。
テキスト・ツー・イメージ・モデルから、安全でない画像の生成と憎しみに満ちたミームをデミスティフィケートすることに注力する。
- 参考スコア(独自算出の注目度): 20.066496546107505
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State-of-the-art Text-to-Image models like Stable Diffusion and DALLE$\cdot$2
are revolutionizing how people generate visual content. At the same time,
society has serious concerns about how adversaries can exploit such models to
generate unsafe images. In this work, we focus on demystifying the generation
of unsafe images and hateful memes from Text-to-Image models. We first
construct a typology of unsafe images consisting of five categories (sexually
explicit, violent, disturbing, hateful, and political). Then, we assess the
proportion of unsafe images generated by four advanced Text-to-Image models
using four prompt datasets. We find that these models can generate a
substantial percentage of unsafe images; across four models and four prompt
datasets, 14.56% of all generated images are unsafe. When comparing the four
models, we find different risk levels, with Stable Diffusion being the most
prone to generating unsafe content (18.92% of all generated images are unsafe).
Given Stable Diffusion's tendency to generate more unsafe content, we evaluate
its potential to generate hateful meme variants if exploited by an adversary to
attack a specific individual or community. We employ three image editing
methods, DreamBooth, Textual Inversion, and SDEdit, which are supported by
Stable Diffusion. Our evaluation result shows that 24% of the generated images
using DreamBooth are hateful meme variants that present the features of the
original hateful meme and the target individual/community; these generated
images are comparable to hateful meme variants collected from the real world.
Overall, our results demonstrate that the danger of large-scale generation of
unsafe images is imminent. We discuss several mitigating measures, such as
curating training data, regulating prompts, and implementing safety filters,
and encourage better safeguard tools to be developed to prevent unsafe
generation.
- Abstract(参考訳): 安定拡散やdalle$\cdot$2のような最先端のテキスト対画像モデルは、人々がビジュアルコンテンツを生成する方法に革命をもたらしている。
同時に、社会は、敵がそのようなモデルを使って安全でない画像を生成する方法に深刻な懸念を抱いている。
本研究では,テキスト・ツー・イメージ・モデルから安全でない画像と憎しみのあるミームを生成することに焦点を当てる。
まず5つのカテゴリー(性的に明示的、暴力的、乱暴、憎悪的、政治的)からなる安全でないイメージのタイプポロジーを構築する。
次に、4つのプロンプトデータセットを用いて、4つの高度なテキスト対画像モデルによって生成される安全でない画像の割合を評価する。
4つのモデルと4つのプロンプトデータセットにおいて、生成された画像の14.56%が安全ではない。
4つのモデルを比較すると、異なるリスクレベルが見つかり、安定拡散は安全でないコンテンツを生成する最も起こりやすい(生成した画像の18.92%は安全でない)。
安定した拡散がより安全でないコンテンツを生成する傾向を考えると、敵が特定の個人やコミュニティを攻撃するために悪用された場合、その可能性を評価できる。
我々はDreamBooth, Textual Inversion, SDEditの3つの画像編集手法を採用し, 安定拡散をサポートする。
以上の結果から,DreamBoothを用いた画像の24%は,本来の憎悪ミームの特徴と,対象とする個人・コミュニティの特徴を示す憎悪ミームの変種であり,これらの画像は実世界から収集された憎悪ミームの変種に匹敵するものであることが示された。
全体として,安全でない画像の大規模生成の危険性が差し迫っていることが示された。
トレーニングデータのキュレーション,プロンプトの調整,安全フィルタの実装など,いくつかの対策について検討し,安全でない生成を防止するために,より優れた安全対策ツールの開発を奨励する。
関連論文リスト
- Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step [62.82566977845765]
ステップバイステップの編集プロセスを通じて画像生成モデルを損なう、Chain-of-Jailbreak (CoJ)アタックと呼ばれる新しいジェイルブレイク手法を提案する。
我々のCoJ攻撃手法は、60%以上のケースでモデルの保護を回避できる。
また,効果的なプロンプトベース手法であるThink Twice Promptingを提案する。
論文 参考訳(メタデータ) (2024-10-04T19:04:43Z) - Multimodal Pragmatic Jailbreak on Text-to-image Models [43.67831238116829]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。
2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
論文 参考訳(メタデータ) (2024-09-27T21:23:46Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。
我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts [38.63253101205306]
従来の研究は、操作されたプロンプトがテキスト・ツー・イメージ・モデルを用いて安全でない画像を生成することを実証してきた。
基本攻撃と実用性維持攻撃の2つの毒素攻撃を提案する。
本研究は,実世界のシナリオにおけるテキスト・ツー・イメージ・モデル導入の潜在的なリスクを明らかにするものである。
論文 参考訳(メタデータ) (2023-10-25T13:10:44Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。