論文の概要: Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2412.05934v2
- Date: Fri, 03 Jan 2025 08:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:10:02.102300
- Title: Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大規模言語モデルに対するヒューリスティック誘導型マルチモーダルリスク分散ジェイルブレーク攻撃
- Authors: Ma Teng, Jia Xiaojun, Duan Ranjie, Li Xinfeng, Huang Yihao, Chu Zhixuan, Liu Yang, Ren Wenqi,
- Abstract要約: 本研究では,HIMRDと呼ばれる2つの要素からなるマルチモーダルジェイルブレイク攻撃手法を提案する。
理解促進プロンプトは、MLLMが悪意のあるプロンプトと誘導プロンプトを再構築するのに役立ち、肯定的な出力の可能性を高める。
このアプローチはMLLMの脆弱性を効果的に発見し、人気の高い7つのオープンソースMLLMの平均攻撃成功率は90%、人気の高い3つのオープンソースMLLMの平均攻撃成功率は約68%に達する。
- 参考スコア(独自算出の注目度): 3.452274739430025
- License:
- Abstract: With the rapid advancement of multimodal large language models (MLLMs), concerns regarding their security have increasingly captured the attention of both academia and industry. Although MLLMs are vulnerable to jailbreak attacks, designing effective multimodal jailbreak attacks poses unique challenges, especially given the distinct protective measures implemented across various modalities in commercial models. Previous works concentrate risks into a single modality, resulting in limited jailbreak performance. In this paper, we propose a heuristic-induced multimodal risk distribution jailbreak attack method, called HIMRD, which consists of two elements: multimodal risk distribution strategy and heuristic-induced search strategy. The multimodal risk distribution strategy is used to segment harmful instructions across multiple modalities to effectively circumvent MLLMs' security protection. The heuristic-induced search strategy identifies two types of prompts: the understanding-enhancing prompt, which helps the MLLM reconstruct the malicious prompt, and the inducing prompt, which increases the likelihood of affirmative outputs over refusals, enabling a successful jailbreak attack. Extensive experiments demonstrate that this approach effectively uncovers vulnerabilities in MLLMs, achieving an average attack success rate of 90% across seven popular open-source MLLMs and an average attack success rate of around 68% in three popular closed-source MLLMs. Our code will coming soon. Warning: This paper contains offensive and harmful examples, reader discretion is advised.
- Abstract(参考訳): MLLM(Multimodal large language model)の急速な進歩に伴い、そのセキュリティに関する懸念は、学術と産業の両方の注目を集めている。
MLLMはジェイルブレイク攻撃に弱いが、効果的なマルチモーダル・ジェイルブレイク攻撃を設計することは、特に商業モデルにおける様々なモダリティにまたがる異なる保護措置を考えると、独特な課題をもたらす。
以前の作業はリスクを単一のモダリティに集中させ、結果としてジェイルブレイクのパフォーマンスが制限された。
本稿では,HIMRDと呼ばれる,ヒューリスティック誘導型リスク分散ジェイルブレイク攻撃手法を提案する。
マルチモーダルリスク分散戦略は、MLLMのセキュリティ保護を効果的に回避するために、複数のモダリティにまたがる有害な指示を分割するために使用される。
ヒューリスティック誘導探索戦略は、MLLMが悪意のあるプロンプトを再構築するのに役立つ理解促進プロンプトと、拒絶に対する肯定的なアウトプットの可能性を高める誘導プロンプトの2つのタイプのプロンプトを識別し、ジェイルブレイク攻撃を成功させる。
大規模な実験では、このアプローチがMLLMの脆弱性を効果的に発見し、人気の高い7つのオープンソースMLLMの平均攻撃成功率は90%、人気の高い3つのオープンソースMLLMの平均攻撃成功率は約68%に達する。
私たちのコードはもうすぐ来るでしょう。
警告: 本論文は攻撃的かつ有害な事例を含む, 読者の判断を推奨する。
関連論文リスト
- `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [6.151779089440453]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文 参考訳(メタデータ) (2025-02-02T10:05:08Z) - Towards Robust Multimodal Large Language Models Against Jailbreak Attacks [24.491648943977605]
本稿では,敵対的雑音を発生させる攻撃ステップとモデル更新ステップとを交互に行うSafeMLLMを紹介する。
攻撃ステップでは、SafeMLLMは新たに提案されたコントラスト埋め込み攻撃(CoE-Attack)を通じて敵の摂動を発生させる。
我々は,SafeMLLMを6つのMLLMと6つのジェイルブレイク法で比較した。
論文 参考訳(メタデータ) (2025-02-02T03:45:49Z) - LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - Divide and Conquer: A Hybrid Strategy Defeats Multimodal Large Language Models [1.0291559330120414]
本稿では,マルチモーダルジェイルブレイク手法であるJMLLMを提案する。
テキスト、視覚、聴覚のモダリティにわたって包括的なジェイルブレイク攻撃を実行するために、複数の戦略を統合する。
また、マルチモーダルジェイルブレイク研究のための新しい包括的データセットTriJailも提供します。
論文 参考訳(メタデータ) (2024-12-21T09:43:51Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models [47.576957746503666]
BlackDANは、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである。
ジェイルブレイクを効果的に促進する高品質なプロンプトを生成する。
コンテキスト関連性を維持し、検出可能性を最小限にする。
論文 参考訳(メタデータ) (2024-10-13T11:15:38Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking [32.300594239333236]
Large Language Models (LLM) と Multimodal Large Language Models (MLLM) は、様々な攻撃に対して脆弱性を暴露している。
本稿では, LLM と MLLM を対象とするジェイルブレーキング研究の概要を概説し, 評価ベンチマーク, 攻撃技術, 防衛戦略の最近の進歩に注目した。
論文 参考訳(メタデータ) (2024-06-21T04:33:48Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。