論文の概要: Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes
From Text-To-Image Models
- arxiv url: http://arxiv.org/abs/2305.13873v2
- Date: Wed, 16 Aug 2023 11:16:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 16:52:52.522555
- Title: Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes
From Text-To-Image Models
- Title(参考訳): 安全でない拡散:テキスト・ツー・イメージモデルから安全でない画像と有害なミームの生成について
- Authors: Yiting Qu, Xinyue Shen, Xinlei He, Michael Backes, Savvas Zannettou,
Yang Zhang
- Abstract要約: Stable DiffusionやDALLE$cdot$2といった最先端のテキスト・トゥ・イメージモデルは、人々が視覚コンテンツを生成する方法に革命をもたらしている。
テキスト・ツー・イメージ・モデルから、安全でない画像の生成と憎しみに満ちたミームをデミスティフィケートすることに注力する。
- 参考スコア(独自算出の注目度): 44.10698490171833
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State-of-the-art Text-to-Image models like Stable Diffusion and DALLE$\cdot$2
are revolutionizing how people generate visual content. At the same time,
society has serious concerns about how adversaries can exploit such models to
generate unsafe images. In this work, we focus on demystifying the generation
of unsafe images and hateful memes from Text-to-Image models. We first
construct a typology of unsafe images consisting of five categories (sexually
explicit, violent, disturbing, hateful, and political). Then, we assess the
proportion of unsafe images generated by four advanced Text-to-Image models
using four prompt datasets. We find that these models can generate a
substantial percentage of unsafe images; across four models and four prompt
datasets, 14.56% of all generated images are unsafe. When comparing the four
models, we find different risk levels, with Stable Diffusion being the most
prone to generating unsafe content (18.92% of all generated images are unsafe).
Given Stable Diffusion's tendency to generate more unsafe content, we evaluate
its potential to generate hateful meme variants if exploited by an adversary to
attack a specific individual or community. We employ three image editing
methods, DreamBooth, Textual Inversion, and SDEdit, which are supported by
Stable Diffusion. Our evaluation result shows that 24% of the generated images
using DreamBooth are hateful meme variants that present the features of the
original hateful meme and the target individual/community; these generated
images are comparable to hateful meme variants collected from the real world.
Overall, our results demonstrate that the danger of large-scale generation of
unsafe images is imminent. We discuss several mitigating measures, such as
curating training data, regulating prompts, and implementing safety filters,
and encourage better safeguard tools to be developed to prevent unsafe
generation.
- Abstract(参考訳): 安定拡散やdalle$\cdot$2のような最先端のテキスト対画像モデルは、人々がビジュアルコンテンツを生成する方法に革命をもたらしている。
同時に、社会は、敵がそのようなモデルを使って安全でない画像を生成する方法に深刻な懸念を抱いている。
本研究では,テキスト・ツー・イメージ・モデルから安全でない画像と憎しみのあるミームを生成することに焦点を当てる。
まず5つのカテゴリー(性的に明示的、暴力的、乱暴、憎悪的、政治的)からなる安全でないイメージのタイプポロジーを構築する。
次に、4つのプロンプトデータセットを用いて、4つの高度なテキスト対画像モデルによって生成される安全でない画像の割合を評価する。
4つのモデルと4つのプロンプトデータセットにおいて、生成された画像の14.56%が安全ではない。
4つのモデルを比較すると、異なるリスクレベルが見つかり、安定拡散は安全でないコンテンツを生成する最も起こりやすい(生成した画像の18.92%は安全でない)。
安定した拡散がより安全でないコンテンツを生成する傾向を考えると、敵が特定の個人やコミュニティを攻撃するために悪用された場合、その可能性を評価できる。
我々はDreamBooth, Textual Inversion, SDEditの3つの画像編集手法を採用し, 安定拡散をサポートする。
以上の結果から,DreamBoothを用いた画像の24%は,本来の憎悪ミームの特徴と,対象とする個人・コミュニティの特徴を示す憎悪ミームの変種であり,これらの画像は実世界から収集された憎悪ミームの変種に匹敵するものであることが示された。
全体として,安全でない画像の大規模生成の危険性が差し迫っていることが示された。
トレーニングデータのキュレーション,プロンプトの調整,安全フィルタの実装など,いくつかの対策について検討し,安全でない生成を防止するために,より優れた安全対策ツールの開発を奨励する。
関連論文リスト
- Image Safeguarding: Reasoning with Conditional Vision Language Model and
Obfuscating Unsafe Content Counterfactually [3.69611312621848]
ソーシャルメディアプラットフォームは、性的行為を描写した画像など、悪意あるアクターが安全でないコンテンツを共有するためにますます利用されている。
主要なプラットフォームでは、人工知能(AI)と人間のモデレーションを使用して、そのような画像を難読化してより安全なものにしている。
難読化画像の2つの重要なニーズは、難読化画像領域の正確な根拠を提供する必要があることである。
論文 参考訳(メタデータ) (2024-01-19T21:38:18Z) - Removing NSFW Concepts from Vision-and-Language Models for Text-to-Image
Retrieval and Generation [44.707144011189335]
我々は、安全でない作業概念に対する感受性を排除し、ビジョン・アンド・ランゲージモデルをより安全にする方法を紹介した。
安全な文と安全でない文を変換する大規模な言語モデルから、これを蒸留する方法を示す。
本研究では,画像検索とテキスト・ツー・イメージ生成の両面から得られる埋め込み空間について広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:02:17Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via
Substitution [22.882337899780968]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by
Finding Problematic Prompts [68.24640128324778]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion
Models [85.52369122266549]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z) - SneakyPrompt: Jailbreaking Text-to-image Generative Models [20.645304189835944]
我々は,最初の自動攻撃フレームワークであるSneakyPromptをジェイルブレイクテキスト画像生成モデルに提案する。
安全フィルタによってブロックされるプロンプトを与えられたSneakyPromptは、テキスト・ツー・イメージ生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
評価の結果,SneakyPromptはNSFW画像の生成に成功しているだけでなく,jailbreakテキスト・画像生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
論文 参考訳(メタデータ) (2023-05-20T03:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。