論文の概要: PBI-Attack: Prior-Guided Bimodal Interactive Black-Box Jailbreak Attack for Toxicity Maximization
- arxiv url: http://arxiv.org/abs/2412.05892v2
- Date: Mon, 16 Dec 2024 13:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:37.482667
- Title: PBI-Attack: Prior-Guided Bimodal Interactive Black-Box Jailbreak Attack for Toxicity Maximization
- Title(参考訳): PBI-Attack: 毒性最大化のためのプリガイドバイモーダル対話型ブラックボックスジェイルブレイク攻撃
- Authors: Ruoxi Cheng, Yizhong Ding, Shuirong Cao, Ranjie Duan, Xiaoshuang Jia, Shaowei Yuan, Zhiqiang Wang, Xiaojun Jia,
- Abstract要約: そこで本研究では,前誘導バイモーダル対話型ブラックボックスジェイルブレイク攻撃による毒性評価を提案する。
本手法は,LVLMを用いて有害なコーパスから有害な特徴を抽出することから始める。
双方向の相互モーダル相互作用最適化により,これらの特徴を向上する。
実験によると、PBI-Attackは従来の最先端のジェイルブレイク手法よりも優れている。
- 参考スコア(独自算出の注目度): 8.819101213981053
- License:
- Abstract: Understanding the vulnerabilities of Large Vision Language Models (LVLMs) to jailbreak attacks is essential for their responsible real-world deployment. Most previous work requires access to model gradients, or is based on human knowledge (prompt engineering) to complete jailbreak, and they hardly consider the interaction of images and text, resulting in inability to jailbreak in black box scenarios or poor performance. To overcome these limitations, we propose a Prior-Guided Bimodal Interactive Black-Box Jailbreak Attack for toxicity maximization, referred to as PBI-Attack. Our method begins by extracting malicious features from a harmful corpus using an alternative LVLM and embedding these features into a benign image as prior information. Subsequently, we enhance these features through bidirectional cross-modal interaction optimization, which iteratively optimizes the bimodal perturbations in an alternating manner through greedy search, aiming to maximize the toxicity of the generated response. The toxicity level is quantified using a well-trained evaluation model. Experiments demonstrate that PBI-Attack outperforms previous state-of-the-art jailbreak methods, achieving an average attack success rate of 92.5% across three open-source LVLMs and around 67.3% on three closed-source LVLMs. Disclaimer: This paper contains potentially disturbing and offensive content.
- Abstract(参考訳): 大規模ビジョン言語モデル(LVLM)のジェイルブレイク攻撃に対する脆弱性を理解することは、彼らの責任を負う現実世界の展開に不可欠である。
これまでの作業のほとんどは、モデル勾配へのアクセスを必要とするか、あるいは、ジェイルブレイクを完了させるために人間の知識(プロンプトエンジニアリング)に基づいており、画像とテキストの相互作用をほとんど考慮していないため、ブラックボックスのシナリオでジェイルブレイクができないか、パフォーマンスが低くなる。
これらの制限を克服するため、PBI-Attackと呼ばれる毒性最大化のための事前誘導型双方向ブラックボックスジェイルブレイク攻撃を提案する。
提案手法は,LVLMを用いて有害なコーパスから有害な特徴を抽出し,それらの特徴を先行情報として良質な画像に埋め込むことから始める。
その後,両方向の相互モーダル相互作用の最適化によりこれらの特徴を増強し,両モードの摂動をグレディサーチにより反復的に最適化し,生成した応答の毒性を最大化することを目的とした。
毒性レベルは、よく訓練された評価モデルを用いて定量化される。
PBI-Attackは3つのオープンソースLVLMの平均攻撃成功率は92.5%であり、3つのクローズドソースLVLMでは67.3%である。
Disclaimer: この論文には、潜在的に乱暴で不快な内容が含まれています。
関連論文リスト
- Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models [80.77246856082742]
Safety Snowball Agent (SSA) は、エージェントの自律的およびツール使用能力をジェイルブレイクLVLMに活用する新しいエージェントベースのフレームワークである。
我々の実験では、ほぼすべての画像を用いてLVLMを誘導し、安全でないコンテンツを生成し、最新のLVLMに対して高いジェイルブレイク率を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-18T11:58:07Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks [62.58434630634917]
VLM(Vision-Language Models)は、脱獄攻撃に弱いことが示されている。
我々は,ブラックボックスターゲットのVLMを,その性能を損なうことなくジェイルブレイク攻撃から防御する,新しいブルーチーム方式のBlueSuffixを提案する。
論文 参考訳(メタデータ) (2024-10-28T12:43:47Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [47.1955210785169]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。