論文の概要: Red-Teaming the Stable Diffusion Safety Filter
- arxiv url: http://arxiv.org/abs/2210.04610v2
- Date: Tue, 11 Oct 2022 09:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 15:53:49.964811
- Title: Red-Teaming the Stable Diffusion Safety Filter
- Title(参考訳): 安定拡散安全フィルタの組替え
- Authors: Javier Rando and Daniel Paleka and David Lindner and Lennard Heim and
Florian Tram\`er
- Abstract要約: 安全フィルタをバイパスする乱雑なコンテンツを容易に生成できることが示される。
将来のモデルリリースの安全性対策は、完全にオープンで適切に文書化されなければならない、と私たちは主張する。
- 参考スコア(独自算出の注目度): 5.683172456953383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stable Diffusion is a recent open-source image generation model comparable to
proprietary models such as DALLE, Imagen, or Parti. Stable Diffusion comes with
a safety filter that aims to prevent generating explicit images. Unfortunately,
the filter is obfuscated and poorly documented. This makes it hard for users to
prevent misuse in their applications, and to understand the filter's
limitations and improve it. We first show that it is easy to generate
disturbing content that bypasses the safety filter. We then reverse-engineer
the filter and find that while it aims to prevent sexual content, it ignores
violence, gore, and other similarly disturbing content. Based on our analysis,
we argue safety measures in future model releases should strive to be fully
open and properly documented to stimulate security contributions from the
community.
- Abstract(参考訳): stable diffusionは、dalle、imagen、partiといったプロプライエタリモデルに匹敵する、最近のオープンソースイメージ生成モデルである。
安定拡散は、明示的な画像の生成を防ぐ安全フィルタを備えている。
残念ながら、フィルターは難解で文書化されていない。
これにより、ユーザがアプリケーションの誤用を防ぎ、フィルタの制限を理解して改善することが難しくなる。
まず,安全フィルタをバイパスする乱雑なコンテンツの生成が容易であることを示す。
そして、フィルターをリバースエンジニアリングして、性的なコンテンツを防ぐために、暴力やゴアなど同様に乱暴なコンテンツを無視していることに気付く。
分析から,今後のモデルリリースにおける安全性対策は,コミュニティのセキュリティ貢献を刺激するために,完全にオープンで適切に文書化されていくべきであると論じている。
関連論文リスト
- Image Safeguarding: Reasoning with Conditional Vision Language Model and
Obfuscating Unsafe Content Counterfactually [3.69611312621848]
ソーシャルメディアプラットフォームは、性的行為を描写した画像など、悪意あるアクターが安全でないコンテンツを共有するためにますます利用されている。
主要なプラットフォームでは、人工知能(AI)と人間のモデレーションを使用して、そのような画像を難読化してより安全なものにしている。
難読化画像の2つの重要なニーズは、難読化画像領域の正確な根拠を提供する必要があることである。
論文 参考訳(メタデータ) (2024-01-19T21:38:18Z) - Divide-and-Conquer Attack: Harnessing the Power of LLM to Bypass Safety Filters of Text-to-Image Models [1.5408065585641535]
我々は、最先端TTIモデルの安全フィルタを回避するために、Divide-and-Conquer Attackを導入する。
我々はLLMを効果的に誘導するアタック・ヘルパーを設計し、非倫理的な描画意図を曖昧な記述に分解する。
本研究は,手工芸法や反復的TTIモデルクエリよりも,より深刻なセキュリティ上の意味を持つ。
論文 参考訳(メタデータ) (2023-12-12T10:04:43Z) - Toward Robust Imperceptible Perturbation against Unauthorized
Text-to-image Diffusion-based Synthesis [59.988458964353754]
テキストから画像への拡散モデルにより、スキャンされた参照写真からパーソナライズされた画像をシームレスに生成できる。
既存のアプローチは、悪意のある使用から"学習不能"なイメージをレンダリングするために、知覚不可能な方法でユーザーイメージを摂動させる。
メタ学習フレームワークを用いて,バイレベル中毒の問題を解決するメタクラックを提案する。
論文 参考訳(メタデータ) (2023-11-22T03:31:31Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion
Models? [54.20337292389793]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by
Finding Problematic Prompts [68.24640128324778]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes
From Text-To-Image Models [44.10698490171833]
Stable DiffusionやDALLE$cdot$2といった最先端のテキスト・トゥ・イメージモデルは、人々が視覚コンテンツを生成する方法に革命をもたらしている。
テキスト・ツー・イメージ・モデルから、安全でない画像の生成と憎しみに満ちたミームをデミスティフィケートすることに注力する。
論文 参考訳(メタデータ) (2023-05-23T09:48:16Z) - DiffProtect: Generate Adversarial Examples with Diffusion Models for
Facial Privacy Protection [64.77548539959501]
DiffProtectは最先端の方法よりも自然に見える暗号化画像を生成する。
例えば、CelebA-HQとFFHQのデータセットで24.5%と25.1%の絶対的な改善が達成されている。
論文 参考訳(メタデータ) (2023-05-23T02:45:49Z) - SneakyPrompt: Jailbreaking Text-to-image Generative Models [20.645304189835944]
我々は,最初の自動攻撃フレームワークであるSneakyPromptをジェイルブレイクテキスト画像生成モデルに提案する。
安全フィルタによってブロックされるプロンプトを与えられたSneakyPromptは、テキスト・ツー・イメージ生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
評価の結果,SneakyPromptはNSFW画像の生成に成功しているだけでなく,jailbreakテキスト・画像生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
論文 参考訳(メタデータ) (2023-05-20T03:41:45Z) - Benchmarking Robustness to Adversarial Image Obfuscations [22.784762155781436]
悪意あるアクターは、機械学習モデルが正しい決定に達するのを防ぐために、イメージを侵害するポリシーを難なくすることができる。
ImageNetに基づくこのベンチマークは、悪意のあるアクターによって生成される難読化のタイプをシミュレートする。
論文 参考訳(メタデータ) (2023-01-30T15:36:44Z) - Filter Grafting for Deep Neural Networks: Reason, Method, and
Cultivation [86.91324735966766]
フィルタは現代の畳み込みニューラルネットワーク(CNN)のキーコンポーネントである
本稿では,この目的を達成するためにフィルタグラフト(textbfMethod)を導入する。
我々は,フィルタの情報を測定するための新しい基準と,グラフトされた情報をネットワーク間でバランスをとるための適応重み付け戦略を開発する。
論文 参考訳(メタデータ) (2020-04-26T08:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。