論文の概要: Multimodal Pragmatic Jailbreak on Text-to-image Models
- arxiv url: http://arxiv.org/abs/2409.19149v1
- Date: Fri, 27 Sep 2024 21:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:07:58.732518
- Title: Multimodal Pragmatic Jailbreak on Text-to-image Models
- Title(参考訳): テキスト・ツー・イメージモデルにおけるマルチモーダル・プラグマティック・ジェイルブレイク
- Authors: Tong Liu, Zhixin Lai, Gengyuan Zhang, Philip Torr, Vera Demberg, Volker Tresp, Jindong Gu,
- Abstract要約: この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。
2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
- 参考スコア(独自算出の注目度): 43.67831238116829
- License:
- Abstract: Diffusion models have recently achieved remarkable advancements in terms of image quality and fidelity to textual prompts. Concurrently, the safety of such generative models has become an area of growing concern. This work introduces a novel type of jailbreak, which triggers T2I models to generate the image with visual text, where the image and the text, although considered to be safe in isolation, combine to form unsafe content. To systematically explore this phenomenon, we propose a dataset to evaluate the current diffusion-based text-to-image (T2I) models under such jailbreak. We benchmark nine representative T2I models, including two close-source commercial models. Experimental results reveal a concerning tendency to produce unsafe content: all tested models suffer from such type of jailbreak, with rates of unsafe generation ranging from 8\% to 74\%. In real-world scenarios, various filters such as keyword blocklists, customized prompt filters, and NSFW image filters, are commonly employed to mitigate these risks. We evaluate the effectiveness of such filters against our jailbreak and found that, while current classifiers may be effective for single modality detection, they fail to work against our jailbreak. Our work provides a foundation for further development towards more secure and reliable T2I models.
- Abstract(参考訳): 拡散モデルは最近、画像の品質とテキストのプロンプトへの忠実度の観点から、顕著な進歩を遂げている。
同時に、このような生成モデルの安全性は、懸念の高まりの領域となっている。
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして画像とテキストを視覚テキストで生成する。
本稿では,この現象を体系的に探求するために,現在の拡散ベーステキスト・ツー・イメージ(T2I)モデルを評価するデータセットを提案する。
2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
実験結果から、安全でないコンテンツを生成する傾向が明らかとなった。全てのテストされたモデルは、この種のジェイルブレイクに悩まされ、安全でない生成率は8\%から74\%である。
現実のシナリオでは、キーワードブロックリスト、カスタマイズされたプロンプトフィルタ、NSFWイメージフィルタなどの様々なフィルタが、これらのリスクを軽減するために一般的に使用される。
このようなフィルタの有効性をジェイルブレイクに対して評価したところ、現在の分類器は単一のモダリティ検出に有効であるが、ジェイルブレイクに対して機能しないことがわかった。
我々の研究は、よりセキュアで信頼性の高いT2Iモデルに向けたさらなる開発基盤を提供する。
関連論文リスト
- Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users [18.3621509910395]
そこで本研究では,テキスト・ツー・イメージ・モデルの安全性を評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。
包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。
また、テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために、大規模な3つの赤チームデータセットも導入する。
論文 参考訳(メタデータ) (2024-05-24T07:44:27Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。
我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [17.50653920106002]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T09:04:34Z) - Universal Prompt Optimizer for Safe Text-to-Image Generation [27.32589928097192]
ブラックボックスシナリオにおける安全なT2I(POSI)生成のための最初の普遍的プロンプトを提案する。
提案手法は,不適切な画像を生成する際の様々なT2Iモデルの可能性を効果的に低減することができる。
論文 参考訳(メタデータ) (2024-02-16T18:36:36Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - A Comparative Study of Image Disguising Methods for Confidential
Outsourced Learning [5.73658856166614]
InstaHide と DisguizedNets という新しいエンフィメージ・ディスガージング機構について検討・比較を行った。
DisguisedNetsは、画像ブロック化、ブロックレベルのランダムな置換、および2つのブロックレベルのセキュアな変換を組み合わせた新しい組み合わせである。
InstaHideは画像ミックスアップとランダムピクセルフリップ技術である。
マルチレベル脅威モデルを用いて解析および評価を行った。
論文 参考訳(メタデータ) (2022-12-31T16:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。