論文の概要: Distraction is All You Need for Multimodal Large Language Model Jailbreaking
- arxiv url: http://arxiv.org/abs/2502.10794v1
- Date: Sat, 15 Feb 2025 13:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:44.675014
- Title: Distraction is All You Need for Multimodal Large Language Model Jailbreaking
- Title(参考訳): マルチモーダルな大規模言語モデルのジェイルブレイクに必要なのは、デトラクションだけだ
- Authors: Zuopeng Yang, Jiluan Fan, Anli Yan, Erdun Gao, Xin Lin, Tao Li, Kanghua mo, Changyu Dong,
- Abstract要約: マルチレベル・トラクション戦略によりMLLMのアライメントを阻害する手法として,CS-DJ(Contrasting Subimage Distraction Jailbreaking)を提案する。
CS-DJは平均成功率52.40%、アンサンブル攻撃成功率74.10%を達成している。
これらの結果から,MLLMの防御を活用・回避するための散逸に基づくアプローチの可能性を明らかにした。
- 参考スコア(独自算出の注目度): 14.787247403225294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) bridge the gap between visual and textual data, enabling a range of advanced applications. However, complex internal interactions among visual elements and their alignment with text can introduce vulnerabilities, which may be exploited to bypass safety mechanisms. To address this, we analyze the relationship between image content and task and find that the complexity of subimages, rather than their content, is key. Building on this insight, we propose the Distraction Hypothesis, followed by a novel framework called Contrasting Subimage Distraction Jailbreaking (CS-DJ), to achieve jailbreaking by disrupting MLLMs alignment through multi-level distraction strategies. CS-DJ consists of two components: structured distraction, achieved through query decomposition that induces a distributional shift by fragmenting harmful prompts into sub-queries, and visual-enhanced distraction, realized by constructing contrasting subimages to disrupt the interactions among visual elements within the model. This dual strategy disperses the model's attention, reducing its ability to detect and mitigate harmful content. Extensive experiments across five representative scenarios and four popular closed-source MLLMs, including GPT-4o-mini, GPT-4o, GPT-4V, and Gemini-1.5-Flash, demonstrate that CS-DJ achieves average success rates of 52.40% for the attack success rate and 74.10% for the ensemble attack success rate. These results reveal the potential of distraction-based approaches to exploit and bypass MLLMs' defenses, offering new insights for attack strategies.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚データとテキストデータのギャップを埋め、様々な高度なアプリケーションを可能にする。
しかし、視覚要素間の複雑な内部相互作用とテキストとのアライメントは脆弱性を導入し、安全メカニズムをバイパスするために利用される可能性がある。
これを解決するために、画像の内容とタスクの関係を分析し、その内容よりもサブイメージの複雑さが重要であることを確かめる。
この知見に基づいて,多段階の注意散らし戦略によってMLLMのアライメントを乱すことで脱獄を実現するために,Contrasting Subimage Distraction Jailbreaking (CS-DJ) と呼ばれる新しい枠組みを提案する。
CS-DJは2つのコンポーネントから構成されており、クエリ分解によって達成され、有害なプロンプトをサブクエリに断片化することで分散シフトを誘導する。
この二重戦略はモデルの注意を分散させ、有害なコンテンツを検出・緩和する能力を低下させる。
GPT-4o-mini、GPT-4o、GPT-4V、Gemini-1.5-Flashを含む5つの代表的なシナリオと4つの一般的なクローズドソースMLLMにわたる大規模な実験は、CS-DJが平均成功率52.40%、アンサンブル攻撃成功率74.10%に達することを示した。
これらの結果から,MLLMの防御を活用・回避し,攻撃戦略に対する新たな洞察を提供するための,散逸に基づくアプローチの可能性を明らかにした。
関連論文リスト
- MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1 [24.599707290204524]
トランスファーベースの大規模視覚言語モデル(LVLM)に対する標的攻撃は、しばしばブラックボックスの商用LVLMに対して失敗する。
本研究では,局所領域内の意味的詳細を明示的に符号化することで,意味的明瞭度を向上する手法を提案する。
提案手法は, GPT-4.5, 4o, o1において90%以上の成功率を達成し, 従来の攻撃方法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-13T17:59:55Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - AnyAttack: Targeted Adversarial Attacks on Vision-Language Models toward Any Images [41.044385916368455]
我々は、ラベル管理なしでビジョンランゲージモデルに対してターゲットとなる敵画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
我々のフレームワークは、大規模LAION-400Mデータセットで事前学習された逆雑音発生器を用いて、事前学習と微調整のパラダイムを採用している。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。
MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。
本稿では,次の3つの攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:54:26Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。