Fugu-MT 論文翻訳(概要): Multimodal Pragmatic Jailbreak on Text-to-image Models

論文の概要: Multimodal Pragmatic Jailbreak on Text-to-image Models

arxiv url: http://arxiv.org/abs/2409.19149v1
Date: Fri, 27 Sep 2024 21:23:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 04:11:01.564835
Title: Multimodal Pragmatic Jailbreak on Text-to-image Models
Title（参考訳）: テキスト・ツー・イメージモデルにおけるマルチモーダル・プラグマティック・ジェイルブレイク
Authors: Tong Liu, Zhixin Lai, Gengyuan Zhang, Philip Torr, Vera Demberg, Volker Tresp, Jindong Gu,
Abstract要約: この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。 2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
参考スコア（独自算出の注目度）: 43.67831238116829
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have recently achieved remarkable advancements in terms of image quality and fidelity to textual prompts. Concurrently, the safety of such generative models has become an area of growing concern. This work introduces a novel type of jailbreak, which triggers T2I models to generate the image with visual text, where the image and the text, although considered to be safe in isolation, combine to form unsafe content. To systematically explore this phenomenon, we propose a dataset to evaluate the current diffusion-based text-to-image (T2I) models under such jailbreak. We benchmark nine representative T2I models, including two close-source commercial models. Experimental results reveal a concerning tendency to produce unsafe content: all tested models suffer from such type of jailbreak, with rates of unsafe generation ranging from 8\% to 74\%. In real-world scenarios, various filters such as keyword blocklists, customized prompt filters, and NSFW image filters, are commonly employed to mitigate these risks. We evaluate the effectiveness of such filters against our jailbreak and found that, while current classifiers may be effective for single modality detection, they fail to work against our jailbreak. Our work provides a foundation for further development towards more secure and reliable T2I models.
Abstract（参考訳）: 拡散モデルは最近、画像の品質とテキストのプロンプトへの忠実度の観点から、顕著な進歩を遂げている。同時に、このような生成モデルの安全性は、懸念の高まりの領域となっている。この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして画像とテキストを視覚テキストで生成する。本稿では,この現象を体系的に探求するために,現在の拡散ベーステキスト・ツー・イメージ(T2I)モデルを評価するデータセットを提案する。 2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。実験結果から、安全でないコンテンツを生成する傾向が明らかとなった。全てのテストされたモデルは、この種のジェイルブレイクに悩まされ、安全でない生成率は8\%から74\%である。現実のシナリオでは、キーワードブロックリスト、カスタマイズされたプロンプトフィルタ、NSFWイメージフィルタなどの様々なフィルタが、これらのリスクを軽減するために一般的に使用される。このようなフィルタの有効性をジェイルブレイクに対して評価したところ、現在の分類器は単一のモダリティ検出に有効であるが、ジェイルブレイクに対して機能しないことがわかった。我々の研究は、よりセキュアで信頼性の高いT2Iモデルに向けたさらなる開発基盤を提供する。

関連論文リスト

T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文参考訳（メタデータ） (2025-04-22T01:18:42Z)
Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset [20.758637391023345]
安全かつNSFWなテキストとイメージを区別するためにマルチモーダルディフェンスが開発された。我々のモデルは精度とリコールの観点から既存のSOTA NSFW検出手法に対して良好に機能する。
論文参考訳（メタデータ） (2025-04-16T02:10:42Z)
Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models [20.740929360321747]
テキスト・ツー・イメージ(T2I)生成は、不適切または有害なコンテンツの生成に関連するリスクを引き起こす。我々は,テキストと画像チェッカーによって定義された決定境界付近のトークンを検索する,クエリベースのブラックボックスジェイルブレイク攻撃であるTBC-Attackを提案する。提案手法は,T2Iモデルにまたがる最先端のジェイルブレイク攻撃を継続的に上回ります。
論文参考訳（メタデータ） (2025-04-15T11:53:40Z)
ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文参考訳（メタデータ） (2024-10-04T19:37:56Z)
Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step [62.82566977845765]
ステップバイステップの編集プロセスを通じて画像生成モデルを損なう、Chain-of-Jailbreak (CoJ)アタックと呼ばれる新しいジェイルブレイク手法を提案する。我々のCoJ攻撃手法は、60%以上のケースでモデルの保護を回避できる。また,効果的なプロンプトベース手法であるThink Twice Promptingを提案する。
論文参考訳（メタデータ） (2024-10-04T19:04:43Z)
RT-Attack: Jailbreaking Text-to-Image Models via Random Token [24.61198605177661]
ランダム検索を利用した2段階のクエリベースのブラックボックスアタック手法を提案する。第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。第2段階では、この初期プロンプトを使用してアプローチを洗練し、脱獄を目的とした詳細な敵対的プロンプトを作成します。
論文参考訳（メタデータ） (2024-08-25T17:33:40Z)
Perception-guided Jailbreak against Text-to-Image Models [18.825079959947857]
PGJと呼ばれるLPM駆動型知覚誘導ジェイルブレイク法を提案する。これは、特定のT2Iモデル(モデルフリー)を必要としないブラックボックスジェイルブレイク方式であり、非常に自然な攻撃プロンプトを生成する。 6つのオープンソースモデルと何千ものプロンプトによる商用オンラインサービスによる実験により,PGJの有効性が検証された。
論文参考訳（メタデータ） (2024-08-20T13:40:25Z)
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。 T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文参考訳（メタデータ） (2024-07-17T08:19:11Z)
Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文参考訳（メタデータ） (2024-06-21T03:58:44Z)
ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users [18.3621509910395]
そこで本研究では,テキスト・ツー・イメージ・モデルの安全性を評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。また、テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために、大規模な3つの赤チームデータセットも導入する。
論文参考訳（メタデータ） (2024-05-24T07:44:27Z)
Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文参考訳（メタデータ） (2024-04-11T17:59:52Z)
Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。 JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文参考訳（メタデータ） (2024-04-02T09:49:35Z)
Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文参考訳（メタデータ） (2023-10-16T02:11:20Z)
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文参考訳（メタデータ） (2023-09-12T11:19:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。