論文の概要: IDEATOR: Jailbreaking VLMs Using VLMs
- arxiv url: http://arxiv.org/abs/2411.00827v1
- Date: Tue, 29 Oct 2024 07:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:28:26.716339
- Title: IDEATOR: Jailbreaking VLMs Using VLMs
- Title(参考訳): IDEATOR: VLMを使ってVLMをジェイルブレイクする
- Authors: Ruofan Wang, Bo Wang, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用してジェイルブレイクテキストを生成し、最先端の拡散モデルを利用して対応するジェイルブレイク画像を生成する。
MiniGPT-4を94%の成功率でジェイルブレイクし、LLaVAとInstructBLIPにシームレスに移行し、それぞれ82%と88%という高い成功率を達成した。
- 参考スコア(独自算出の注目度): 68.4760494411687
- License:
- Abstract: As large Vision-Language Models (VLMs) continue to gain prominence, ensuring their safety deployment in real-world applications has become a critical concern. Recently, significant research efforts have focused on evaluating the robustness of VLMs against jailbreak attacks. Due to challenges in obtaining multi-modal data, current studies often assess VLM robustness by generating adversarial or query-relevant images based on harmful text datasets. However, the jailbreak images generated this way exhibit certain limitations. Adversarial images require white-box access to the target VLM and are relatively easy to defend against, while query-relevant images must be linked to the target harmful content, limiting their diversity and effectiveness. In this paper, we propose a novel jailbreak method named IDEATOR, which autonomously generates malicious image-text pairs for black-box jailbreak attacks. IDEATOR is a VLM-based approach inspired by our conjecture that a VLM itself might be a powerful red team model for generating jailbreak prompts. Specifically, IDEATOR employs a VLM to generate jailbreak texts while leveraging a state-of-the-art diffusion model to create corresponding jailbreak images. Extensive experiments demonstrate the high effectiveness and transferability of IDEATOR. It successfully jailbreaks MiniGPT-4 with a 94% success rate and transfers seamlessly to LLaVA and InstructBLIP, achieving high success rates of 82% and 88%, respectively. IDEATOR uncovers previously unrecognized vulnerabilities in VLMs, calling for advanced safety mechanisms.
- Abstract(参考訳): VLM(Vision-Language Models)が普及を続けるにつれ、現実のアプリケーションにおける安全性の確保が重要な問題となっている。
近年,VLMの脱獄攻撃に対する堅牢性を評価する研究が盛んに行われている。
マルチモーダルデータを取得する上での課題のため、現在の研究では、有害なテキストデータセットに基づいて、逆あるいはクエリ関連の画像を生成することにより、VLMの堅牢性を評価することがしばしばある。
しかし、この方法で生成されたジェイルブレイク画像には、一定の制限がある。
敵画像はターゲットのVLMへのホワイトボックスアクセスを必要とし、比較的防御が容易であるが、クエリ関連画像はターゲットの有害なコンテンツにリンクし、その多様性と有効性を制限する必要がある。
本稿では,ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法IDEATORを提案する。
IDEATORはVLMベースのアプローチで、VLM自体がジェイルブレイクプロンプトを生成するための強力なレッドチームモデルかもしれないという予想にインスパイアされています。
具体的には、IDEATORはVLMを使用してジェイルブレイクテキストを生成し、最先端の拡散モデルを利用して対応するジェイルブレイク画像を生成する。
大規模な実験はIDEATORの有効性と伝達性を示している。
MiniGPT-4を94%の成功率でジェイルブレイクし、LLaVAとInstructBLIPにシームレスに移行し、それぞれ82%と88%という高い成功率を達成した。
IDEATORは、VLMの未認識の脆弱性を明らかにし、高度な安全メカニズムを要求している。
関連論文リスト
- BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks [62.58434630634917]
VLM(Vision-Language Models)は、脱獄攻撃に弱いことが示されている。
我々は,ブラックボックスターゲットのVLMを,その性能を損なうことなくジェイルブレイク攻撃から防御する,新しいブルーチーム方式のBlueSuffixを提案する。
論文 参考訳(メタデータ) (2024-10-28T12:43:47Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - When Do Universal Image Jailbreaks Transfer Between Vision-Language Models? [20.385314634225978]
視覚およびテキスト入力に条件付けされたテキスト出力を生成する視覚言語モデル(VLM)の一般的なクラスに焦点を当てる。
我々は、勾配に基づく普遍的イメージ"jailbreaks"の転送可能性を評価するための大規模な実証的研究を行っている。
転送可能な勾配に基づく画像ジェイルブレイクは、取得が極めて困難である。
論文 参考訳(メタデータ) (2024-07-21T16:27:24Z) - Image-to-Text Logic Jailbreak: Your Imagination can Help You Do Anything [4.477597131613079]
本稿では,VLMの論理に基づくフローチャートジェイルブレイク機能を評価するための,新しいデータセットFlow-JDを提案する。
我々は、GPT-4o、GPT-4V、その他の5つのSOTAオープンソースVLMに対して広範囲に評価を行い、ジェイルブレイク率は92.8%である。
我々の研究は、画像からテキストへのジェイルブレイクに関する現在のVLMの重大な脆弱性を明らかにし、これらの発見は、堅牢で効果的な将来の防衛を開発する上での緊急性を強調している。
論文 参考訳(メタデータ) (2024-07-01T16:58:55Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。
我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。