論文の概要: Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
- arxiv url: http://arxiv.org/abs/2412.00473v3
- Date: Sat, 07 Dec 2024 08:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:48:55.228877
- Title: Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
- Title(参考訳): マルチモーダルリンクによる大規模視覚言語モデルのジェイルブレイク
- Authors: Yu Wang, Xiaofei Zhou, Yichen Wang, Geyuan Zhang, Tianxing He,
- Abstract要約: 我々は、MML攻撃という新しいジェイルブレイク攻撃フレームワークを提案する。暗号からインスピレーションを得たMMLは、テキストと画像のモダリティをまたいだ暗号化復号プロセスを利用して、悪意のある情報の過剰露出を軽減する。
MMLjailbreaks GPT-4o with attack success rate 97.80% on SafeBench, 98.81% on MM-SafeBench, 99.07% on HADES-Dataset。
- 参考スコア(独自算出の注目度): 14.025750623315561
- License:
- Abstract: With the significant advancement of Large Vision-Language Models (VLMs), concerns about their potential misuse and abuse have grown rapidly. Previous studies have highlighted VLMs' vulnerability to jailbreak attacks, where carefully crafted inputs can lead the model to produce content that violates ethical and legal standards. However, existing methods struggle against state-of-the-art VLMs like GPT-4o, due to the over-exposure of harmful content and lack of stealthy malicious guidance. In this work, we propose a novel jailbreak attack framework: Multi-Modal Linkage (MML) Attack. Drawing inspiration from cryptography, MML utilizes an encryption-decryption process across text and image modalities to mitigate over-exposure of malicious information. To align the model's output with malicious intent covertly, MML employs a technique called "evil alignment", framing the attack within a video game production scenario. Comprehensive experiments demonstrate MML's effectiveness. Specifically, MML jailbreaks GPT-4o with attack success rates of 97.80% on SafeBench, 98.81% on MM-SafeBench and 99.07% on HADES-Dataset. Our code is available at https://github.com/wangyu-ovo/MML
- Abstract(参考訳): VLM(Large Vision-Language Models)の大幅な進歩に伴い、その潜在的な誤用や虐待に対する懸念が急速に高まっている。
従来の研究は、VLMのジェイルブレイク攻撃に対する脆弱性を強調しており、慎重に入力を作成すれば、倫理的および法的基準に違反したコンテンツを生成するモデルに導かれる可能性がある。
しかし、GPT-4oのような最先端のVLMに対して既存の手法は、有害なコンテンツの過剰な露光と、ステルス性の悪意のあるガイダンスの欠如のために苦労している。
本研究では,新しいジェイルブレイク攻撃フレームワークであるMulti-Modal Linkage (MML) Attackを提案する。
暗号化からインスピレーションを得たMMLは、悪意のある情報の過剰な露出を軽減するために、テキストと画像のモダリティをまたいだ暗号化復号プロセスを利用する。
モデルの出力と悪意のある意図を隠蔽的に整合させるため、MMLは「悪のアライメント」と呼ばれる技法を採用し、ビデオゲームのシナリオ内で攻撃をフレーミングする。
総合的な実験はMLの有効性を示す。
具体的には、MM-SafeBenchで97.80%、MM-SafeBenchで98.81%、HADES-Datasetで99.07%の攻撃成功率でGPT-4oを脱獄させる。
私たちのコードはhttps://github.com/wangyu-ovo/MMLで利用可能です。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks? [39.87609532392292]
この研究は、11の異なる安全ポリシーをカバーする1445の有害な質問を含む包括的なジェイルブレイク評価データセットを構築している。
このデータセットに基づいて、11の異なる大言語モデル(LLM)とMLLM(Multimodal Large Language Models)を用いて、広範囲にわたるレッドチーム実験を行う。
GPT4 と GPT-4V は,オープンソースの LLM や MLLM と比較して,ジェイルブレイク攻撃に対する堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T12:38:14Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。