論文の概要: Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
- arxiv url: http://arxiv.org/abs/2412.00473v2
- Date: Tue, 03 Dec 2024 07:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:54.913516
- Title: Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
- Title(参考訳): マルチモーダルリンクによる大規模視覚言語モデルのジェイルブレイク
- Authors: Yu Wang, Xiaofei Zhou, Yichen Wang, Geyuan Zhang, Tianxing He,
- Abstract要約: 我々は、MML攻撃という新しいジェイルブレイク攻撃フレームワークを提案する。暗号からインスピレーションを得たMMLは、テキストと画像のモダリティをまたいだ暗号化復号プロセスを利用して、悪意のある情報の過剰露出を軽減する。
MMLjailbreaks GPT-4o with attack success rate 97.80% on SafeBench, 98.81% on MM-SafeBench, 99.07% on HADES-Dataset。
- 参考スコア(独自算出の注目度): 14.025750623315561
- License:
- Abstract: With the significant advancement of Large Vision-Language Models (VLMs), concerns about their potential misuse and abuse have grown rapidly. Previous studies have highlighted VLMs' vulnerability to jailbreak attacks, where carefully crafted inputs can lead the model to produce content that violates ethical and legal standards. However, existing methods struggle against state-of-the-art VLMs like GPT-4o, due to the over-exposure of harmful content and lack of stealthy malicious guidance. In this work, we propose a novel jailbreak attack framework: Multi-Modal Linkage (MML) Attack. Drawing inspiration from cryptography, MML utilizes an encryption-decryption process across text and image modalities to mitigate over-exposure of malicious information. To align the model's output with malicious intent covertly, MML employs a technique called "evil alignment", framing the attack within a video game production scenario. Comprehensive experiments demonstrate MML's effectiveness. Specifically, MML jailbreaks GPT-4o with attack success rates of 97.80% on SafeBench, 98.81% on MM-SafeBench and 99.07% on HADES-Dataset. Our code is available at https://github.com/wangyu-ovo/MML
- Abstract(参考訳): VLM(Large Vision-Language Models)の大幅な進歩に伴い、その潜在的な誤用や虐待に対する懸念が急速に高まっている。
従来の研究は、VLMのジェイルブレイク攻撃に対する脆弱性を強調しており、慎重に入力を作成すれば、倫理的および法的基準に違反したコンテンツを生成するモデルに導かれる可能性がある。
しかし、GPT-4oのような最先端のVLMに対して既存の手法は、有害なコンテンツの過剰な露光と、ステルス性の悪意のあるガイダンスの欠如のために苦労している。
本研究では,新しいジェイルブレイク攻撃フレームワークであるMulti-Modal Linkage (MML) Attackを提案する。
暗号化からインスピレーションを得たMMLは、悪意のある情報の過剰な露出を軽減するために、テキストと画像のモダリティをまたいだ暗号化復号プロセスを利用する。
モデルの出力と悪意のある意図を隠蔽的に整合させるため、MMLは「悪のアライメント」と呼ばれる技法を採用し、ビデオゲームのシナリオ内で攻撃をフレーミングする。
総合的な実験はMLの有効性を示す。
具体的には、MM-SafeBenchで97.80%、MM-SafeBenchで98.81%、HADES-Datasetで99.07%の攻撃成功率でGPT-4oを脱獄させる。
私たちのコードはhttps://github.com/wangyu-ovo/MMLで利用可能です。
関連論文リスト
- IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Neural Carrier Articles [10.109063166962079]
本稿では,言語モデルモデル(LLM)の注意を移す新しいタイプのジェイルブレイク攻撃を提案する。
提案攻撃では,知識グラフとLLMを利用して,禁止クエリのトピックに類似したキャリア記事を自動的に生成する。
実験の結果,提案手法はクロード3を除いて,高い成功率の目標LLMを投獄できることがわかった。
論文 参考訳(メタデータ) (2024-08-20T20:35:04Z) - Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks? [39.87609532392292]
この研究は、11の異なる安全ポリシーをカバーする1445の有害な質問を含む包括的なジェイルブレイク評価データセットを構築している。
GPT4 と GPT-4V は、オープンソースの LLM や MLLM と比較して、ジェイルブレイク攻撃に対する堅牢性を向上している。
Llama2とQwen-VL-Chatは、他のオープンソースモデルよりも堅牢である。
論文 参考訳(メタデータ) (2024-04-04T12:38:14Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。