論文の概要: Perception-guided Jailbreak against Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2408.10848v2
- Date: Mon, 26 Aug 2024 03:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 12:42:21.468883
- Title: Perception-guided Jailbreak against Text-to-Image Models
- Title(参考訳): テキスト・画像モデルに対する知覚誘導型ジェイルブレイク
- Authors: Yihao Huang, Le Liang, Tianlin Li, Xiaojun Jia, Run Wang, Weikai Miao, Geguang Pu, Yang Liu,
- Abstract要約: PGJと呼ばれるLPM駆動型知覚誘導ジェイルブレイク法を提案する。
これは、特定のT2Iモデル(モデルフリー)を必要としないブラックボックスジェイルブレイク方式であり、非常に自然な攻撃プロンプトを生成する。
6つのオープンソースモデルと何千ものプロンプトによる商用オンラインサービスによる実験により,PGJの有効性が検証された。
- 参考スコア(独自算出の注目度): 18.825079959947857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Text-to-Image (T2I) models have garnered significant attention due to their remarkable advancements. However, security concerns have emerged due to their potential to generate inappropriate or Not-Safe-For-Work (NSFW) images. In this paper, inspired by the observation that texts with different semantics can lead to similar human perceptions, we propose an LLM-driven perception-guided jailbreak method, termed PGJ. It is a black-box jailbreak method that requires no specific T2I model (model-free) and generates highly natural attack prompts. Specifically, we propose identifying a safe phrase that is similar in human perception yet inconsistent in text semantics with the target unsafe word and using it as a substitution. The experiments conducted on six open-source models and commercial online services with thousands of prompts have verified the effectiveness of PGJ.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ(T2I)モデルが注目されている。
しかし、セキュリティ上の懸念は、不適切な、あるいは安全でない(Not-Safe-For-Work)イメージを生成する可能性があるため現れている。
本稿では、異なる意味を持つテキストが人間の知覚に類似する可能性があるという観察に着想を得て、LPM駆動型知覚誘導ジェイルブレイク法(PGJ)を提案する。
これは、特定のT2Iモデル(モデルフリー)を必要としないブラックボックスジェイルブレイク方式であり、非常に自然な攻撃プロンプトを生成する。
具体的には、人間の知覚に類似しているが、テキストのセマンティクスとターゲットの安全でない単語のセマンティクスでは矛盾する安全なフレーズを識別し、置換語として用いることを提案する。
6つのオープンソースモデルと何千ものプロンプトによる商用オンラインサービスによる実験により,PGJの有効性が検証された。
関連論文リスト
- Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models [80.77246856082742]
Safety Snowball Agent (SSA) は、エージェントの自律的およびツール使用能力をジェイルブレイクLVLMに活用する新しいエージェントベースのフレームワークである。
我々の実験では、ほぼすべての画像を用いてLVLMを誘導し、安全でないコンテンツを生成し、最新のLVLMに対して高いジェイルブレイク率を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-18T11:58:07Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Multimodal Pragmatic Jailbreak on Text-to-image Models [43.67831238116829]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。
2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
論文 参考訳(メタデータ) (2024-09-27T21:23:46Z) - RT-Attack: Jailbreaking Text-to-Image Models via Random Token [24.61198605177661]
ランダム検索を利用した2段階のクエリベースのブラックボックスアタック手法を提案する。
第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。
第2段階では、この初期プロンプトを使用してアプローチを洗練し、脱獄を目的とした詳細な敵対的プロンプトを作成します。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文 参考訳(メタデータ) (2024-04-02T09:49:35Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - Backdooring Textual Inversion for Concept Censorship [34.84218971929207]
本稿では、テキスト・インバージョン(TI)と呼ばれるパーソナライズ技術に焦点を当てる。
TIは特定のオブジェクトに関する詳細な情報を含む単語を埋め込む。
TIモデルの概念検閲を実現するために, TI埋め込みにバックドアを注入することを提案する。
論文 参考訳(メタデータ) (2023-08-21T13:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。