論文の概要: BAMBA: A Bimodal Adversarial Multi-Round Black-Box Jailbreak Attacker for LVLMs
- arxiv url: http://arxiv.org/abs/2412.05892v1
- Date: Sun, 08 Dec 2024 11:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:12.486887
- Title: BAMBA: A Bimodal Adversarial Multi-Round Black-Box Jailbreak Attacker for LVLMs
- Title(参考訳): BAMBA:LVLM用バイモーダル・アディショナル・マルチラウンドブラックボックス・ジェイルブレイク・アタック
- Authors: Ruoxi Cheng, Yizhong Ding, Shuirong Cao, Shaowei Yuan, Zhiqiang Wang, Xiaojun Jia,
- Abstract要約: 現在の作業には、単一ラウンド攻撃の制限、二重モードのシナジーの不足、ブラックボックスモデルへのトランスファー可能性の低下、迅速なエンジニアリングへの依存の4つの問題がある。
本稿では,LVLM用マルチラウンドブラックボックスジェイルブレイク攻撃器であるBAMBAを提案する。
- 参考スコア(独自算出の注目度): 7.184971861040213
- License:
- Abstract: LVLMs are widely used but vulnerable to illegal or unethical responses under jailbreak attacks. To ensure their responsible deployment in real-world applications, it is essential to understand their vulnerabilities. There are four main issues in current work: single-round attack limitation, insufficient dual-modal synergy, poor transferability to black-box models, and reliance on prompt engineering. To address these limitations, we propose BAMBA, a bimodal adversarial multi-round black-box jailbreak attacker for LVLMs. We first use an image optimizer to learn malicious features from a harmful corpus, then deepen these features through a bimodal optimizer through text-image interaction, generating adversarial text and image for jailbreak. Experiments on various LVLMs and datasets demonstrate that BAMBA outperforms other baselines.
- Abstract(参考訳): LVLMは広く使われているが、ジェイルブレイク攻撃による違法または非倫理的な反応に対して脆弱である。
現実世界のアプリケーションに責任あるデプロイを確実にするためには、その脆弱性を理解することが不可欠である。
現在の作業には、単一ラウンド攻撃の制限、二重モードのシナジーの不足、ブラックボックスモデルへのトランスファー可能性の低下、迅速なエンジニアリングへの依存の4つの問題がある。
これらの制約に対処するため,LVLMのマルチラウンド・ブラックボックス・ジェイルブレイク・アタッカーであるBAMBAを提案する。
まず、有害なコーパスから悪意のある特徴を学習するために画像オプティマイザを使用し、それからテキストと画像のインタラクションを通じてバイモーダルオプティマイザを通じてこれらの機能を深め、ジェイルブレイクのための敵対的なテキストとイメージを生成する。
様々なLVLMとデータセットの実験は、BAMBAが他のベースラインより優れていることを示した。
関連論文リスト
- Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models [80.77246856082742]
Safety Snowball Agent (SSA) は、エージェントの自律的およびツール使用能力をジェイルブレイクLVLMに活用する新しいエージェントベースのフレームワークである。
我々の実験では、ほぼすべての画像を用いてLVLMを誘導し、安全でないコンテンツを生成し、最新のLVLMに対して高いジェイルブレイク率を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-18T11:58:07Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks [62.58434630634917]
VLM(Vision-Language Models)は、脱獄攻撃に弱いことが示されている。
我々は,ブラックボックスターゲットのVLMを,その性能を損なうことなくジェイルブレイク攻撃から防御する,新しいブルーチーム方式のBlueSuffixを提案する。
論文 参考訳(メタデータ) (2024-10-28T12:43:47Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [47.1955210785169]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。