論文の概要: Enhanced MLLM Black-Box Jailbreaking Attacks and Defenses
- arxiv url: http://arxiv.org/abs/2510.21214v1
- Date: Fri, 24 Oct 2025 07:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.394023
- Title: Enhanced MLLM Black-Box Jailbreaking Attacks and Defenses
- Title(参考訳): MLLMブラックボックスの脱獄攻撃と防衛強化
- Authors: Xingwei Zhong, Kar Wai Fok, Vrizlynn L. L. Thing,
- Abstract要約: テキストと画像のプロンプトによるブラックボックスジェイルブレイク手法を提案し,MLLMの評価を行う。
特に、挑発的指示を伴うテキストプロンプトと、突然変異やマルチイメージ機能を導入した画像プロンプトを設計した。
実験の結果,提案手法はオープンソースのMLLMとクローズドソースMLLMの両方のセキュリティを評価する能力を向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 0.6729108277517128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) comprise of both visual and textual modalities to process vision language tasks. However, MLLMs are vulnerable to security-related issues, such as jailbreak attacks that alter the model's input to induce unauthorized or harmful responses. The incorporation of the additional visual modality introduces new dimensions to security threats. In this paper, we proposed a black-box jailbreak method via both text and image prompts to evaluate MLLMs. In particular, we designed text prompts with provocative instructions, along with image prompts that introduced mutation and multi-image capabilities. To strengthen the evaluation, we also designed a Re-attack strategy. Empirical results show that our proposed work can improve capabilities to assess the security of both open-source and closed-source MLLMs. With that, we identified gaps in existing defense methods to propose new strategies for both training-time and inference-time defense methods, and evaluated them across the new jailbreak methods. The experiment results showed that the re-designed defense methods improved protections against the jailbreak attacks.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) は視覚言語タスクを処理するための視覚的およびテキスト的モダリティから構成される。
しかし、MLLMは、不正または有害な応答を引き起こすためにモデルの入力を変更するジェイルブレイク攻撃など、セキュリティ関連の問題に弱い。
追加の視覚的モダリティの導入は、セキュリティの脅威に新たな次元をもたらす。
本稿では,テキストと画像のプロンプトを併用したブラックボックスジェイルブレイク手法を提案し,MLLMの評価を行った。
特に、挑発的指示を伴うテキストプロンプトと、突然変異やマルチイメージ機能を導入した画像プロンプトを設計した。
また,評価を強化するため,再攻撃戦略を考案した。
実験の結果,提案手法はオープンソースのMLLMとクローズドソースMLLMの両方のセキュリティを評価する能力を向上させることができることがわかった。
そこで我々は,既存の防衛手法のギャップを特定し,トレーニング時間と推論時間の両方の防衛手法の新たな戦略を提案し,新しいジェイルブレイク法で評価した。
実験の結果, 再設計された防御手法により, 脱獄攻撃に対する防御性が向上したことがわかった。
関連論文リスト
- Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - $\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models [11.02754617539271]
我々は,MLLMのジェイルブレイク攻撃と防御技術を評価するための統合パイプラインであるtextitMMJ-Benchを紹介する。
我々は,SoTA MLLMに対する様々な攻撃方法の有効性を評価し,防御機構が防御効果とモデルの有用性に与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-16T00:18:23Z) - Jailbreak Attacks and Defenses Against Large Language Models: A Survey [22.392989536664288]
大規模言語モデル(LLM)は、様々なテキスト生成タスクにおいて例外的に機能している。
ジェイルブレイク」は、利用方針や社会に対する悪意ある反応をモデルに誘導する。
本稿では,ジェイルブレイク攻撃と防衛方法の包括的かつ詳細な分類法を提案する。
論文 参考訳(メタデータ) (2024-07-05T06:57:30Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。