論文の概要: Distraction is All You Need for Multimodal Large Language Model Jailbreaking
- arxiv url: http://arxiv.org/abs/2502.10794v1
- Date: Sat, 15 Feb 2025 13:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:11:32.767277
- Title: Distraction is All You Need for Multimodal Large Language Model Jailbreaking
- Title(参考訳): マルチモーダルな大規模言語モデルのジェイルブレイクに必要なのは、デトラクションだけだ
- Authors: Zuopeng Yang, Jiluan Fan, Anli Yan, Erdun Gao, Xin Lin, Tao Li, Kanghua mo, Changyu Dong,
- Abstract要約: マルチレベル・トラクション戦略によりMLLMのアライメントを阻害する手法として,CS-DJ(Contrasting Subimage Distraction Jailbreaking)を提案する。
CS-DJは平均成功率52.40%、アンサンブル攻撃成功率74.10%を達成している。
これらの結果から,MLLMの防御を活用・回避するための散逸に基づくアプローチの可能性を明らかにした。
- 参考スコア(独自算出の注目度): 14.787247403225294
- License:
- Abstract: Multimodal Large Language Models (MLLMs) bridge the gap between visual and textual data, enabling a range of advanced applications. However, complex internal interactions among visual elements and their alignment with text can introduce vulnerabilities, which may be exploited to bypass safety mechanisms. To address this, we analyze the relationship between image content and task and find that the complexity of subimages, rather than their content, is key. Building on this insight, we propose the Distraction Hypothesis, followed by a novel framework called Contrasting Subimage Distraction Jailbreaking (CS-DJ), to achieve jailbreaking by disrupting MLLMs alignment through multi-level distraction strategies. CS-DJ consists of two components: structured distraction, achieved through query decomposition that induces a distributional shift by fragmenting harmful prompts into sub-queries, and visual-enhanced distraction, realized by constructing contrasting subimages to disrupt the interactions among visual elements within the model. This dual strategy disperses the model's attention, reducing its ability to detect and mitigate harmful content. Extensive experiments across five representative scenarios and four popular closed-source MLLMs, including GPT-4o-mini, GPT-4o, GPT-4V, and Gemini-1.5-Flash, demonstrate that CS-DJ achieves average success rates of 52.40% for the attack success rate and 74.10% for the ensemble attack success rate. These results reveal the potential of distraction-based approaches to exploit and bypass MLLMs' defenses, offering new insights for attack strategies.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚データとテキストデータのギャップを埋め、様々な高度なアプリケーションを可能にする。
しかし、視覚要素間の複雑な内部相互作用とテキストとのアライメントは脆弱性を導入し、安全メカニズムをバイパスするために利用される可能性がある。
これを解決するために、画像の内容とタスクの関係を分析し、その内容よりもサブイメージの複雑さが重要であることを確かめる。
この知見に基づいて,多段階の注意散らし戦略によってMLLMのアライメントを乱すことで脱獄を実現するために,Contrasting Subimage Distraction Jailbreaking (CS-DJ) と呼ばれる新しい枠組みを提案する。
CS-DJは2つのコンポーネントから構成されており、クエリ分解によって達成され、有害なプロンプトをサブクエリに断片化することで分散シフトを誘導する。
この二重戦略はモデルの注意を分散させ、有害なコンテンツを検出・緩和する能力を低下させる。
GPT-4o-mini、GPT-4o、GPT-4V、Gemini-1.5-Flashを含む5つの代表的なシナリオと4つの一般的なクローズドソースMLLMにわたる大規模な実験は、CS-DJが平均成功率52.40%、アンサンブル攻撃成功率74.10%に達することを示した。
これらの結果から,MLLMの防御を活用・回避し,攻撃戦略に対する新たな洞察を提供するための,散逸に基づくアプローチの可能性を明らかにした。
関連論文リスト
- Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。
既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。
本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文 参考訳(メタデータ) (2025-02-03T17:59:45Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - AnyAttack: Targeted Adversarial Attacks on Vision-Language Models toward Any Images [41.044385916368455]
我々は、ラベル管理なしでビジョンランゲージモデルに対してターゲットとなる敵画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
我々のフレームワークは、大規模LAION-400Mデータセットで事前学習された逆雑音発生器を用いて、事前学習と微調整のパラダイムを採用している。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。
MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。
本稿では,次の3つの攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:54:26Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。