論文の概要: Red-Teaming the Stable Diffusion Safety Filter
- arxiv url: http://arxiv.org/abs/2210.04610v5
- Date: Thu, 10 Nov 2022 10:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 11:37:05.863335
- Title: Red-Teaming the Stable Diffusion Safety Filter
- Title(参考訳): 安定拡散安全フィルタの組替え
- Authors: Javier Rando and Daniel Paleka and David Lindner and Lennart Heim and
Florian Tram\`er
- Abstract要約: 安全フィルタをバイパスする乱雑なコンテンツを容易に生成できることが示される。
将来のモデルリリースの安全性対策は、完全にオープンで適切に文書化されなければならない、と私たちは主張する。
- 参考スコア(独自算出の注目度): 5.683172456953383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stable Diffusion is a recent open-source image generation model comparable to
proprietary models such as DALLE, Imagen, or Parti. Stable Diffusion comes with
a safety filter that aims to prevent generating explicit images. Unfortunately,
the filter is obfuscated and poorly documented. This makes it hard for users to
prevent misuse in their applications, and to understand the filter's
limitations and improve it. We first show that it is easy to generate
disturbing content that bypasses the safety filter. We then reverse-engineer
the filter and find that while it aims to prevent sexual content, it ignores
violence, gore, and other similarly disturbing content. Based on our analysis,
we argue safety measures in future model releases should strive to be fully
open and properly documented to stimulate security contributions from the
community.
- Abstract(参考訳): stable diffusionは、dalle、imagen、partiといったプロプライエタリモデルに匹敵する、最近のオープンソースイメージ生成モデルである。
安定拡散は、明示的な画像の生成を防ぐ安全フィルタを備えている。
残念ながら、フィルターは難解で文書化されていない。
これにより、ユーザがアプリケーションの誤用を防ぎ、フィルタの制限を理解して改善することが難しくなる。
まず,安全フィルタをバイパスする乱雑なコンテンツの生成が容易であることを示す。
そして、フィルターをリバースエンジニアリングして、性的なコンテンツを防ぐために、暴力やゴアなど同様に乱暴なコンテンツを無視していることに気付く。
分析から,今後のモデルリリースにおける安全性対策は,コミュニティのセキュリティ貢献を刺激するために,完全にオープンで適切に文書化されていくべきであると論じている。
関連論文リスト
- CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - DiffGuard: Text-Based Safety Checker for Diffusion Models [1.4375779579519912]
本稿では,既存のソリューションよりも優れたテキストベースの安全フィルタを提案する。
我々の研究は、特に情報戦の文脈において、AIが生成するコンテンツの誤用に対処する必要があることによる。
論文 参考訳(メタデータ) (2024-11-25T21:47:02Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。
ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。
本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T19:15:06Z) - SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA [67.68750063537482]
拡散モデルは高品質な画像の生成において顕著な成功を収めた。
最近の研究は、SDモデルがポストホック法医学のための透かし付きコンテンツを出力できるようにすることを目的としている。
このシナリオにおける最初の実装としてtextttmethod を提案する。
論文 参考訳(メタデータ) (2024-05-18T01:25:47Z) - Gaussian Shading: Provable Performance-Lossless Image Watermarking for Diffusion Models [71.13610023354967]
著作権保護と不適切なコンテンツ生成は、拡散モデルの実装に課題をもたらす。
本研究では,性能ロスレスかつトレーニング不要な拡散モデル透かし手法を提案する。
論文 参考訳(メタデータ) (2024-04-07T13:30:10Z) - SneakyPrompt: Jailbreaking Text-to-image Generative Models [20.645304189835944]
我々は,最初の自動攻撃フレームワークであるSneakyPromptをジェイルブレイクテキスト画像生成モデルに提案する。
安全フィルタによってブロックされるプロンプトを与えられたSneakyPromptは、テキスト・ツー・イメージ生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
評価の結果,SneakyPromptはNSFW画像の生成に成功しているだけでなく,jailbreakテキスト・画像生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
論文 参考訳(メタデータ) (2023-05-20T03:41:45Z) - Filter Grafting for Deep Neural Networks: Reason, Method, and
Cultivation [86.91324735966766]
フィルタは現代の畳み込みニューラルネットワーク(CNN)のキーコンポーネントである
本稿では,この目的を達成するためにフィルタグラフト(textbfMethod)を導入する。
我々は,フィルタの情報を測定するための新しい基準と,グラフトされた情報をネットワーク間でバランスをとるための適応重み付け戦略を開発する。
論文 参考訳(メタデータ) (2020-04-26T08:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。