論文の概要: DefenSee: Dissecting Threat from Sight and Text - A Multi-View Defensive Pipeline for Multi-modal Jailbreaks
- arxiv url: http://arxiv.org/abs/2512.01185v1
- Date: Mon, 01 Dec 2025 01:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.629738
- Title: DefenSee: Dissecting Threat from Sight and Text - A Multi-View Defensive Pipeline for Multi-modal Jailbreaks
- Title(参考訳): DefenSee: 監視とテキストから脅威を分離する - マルチモーダルジェイルブレークのためのマルチビュー防御パイプライン
- Authors: Zihao Wang, Kar Wai Fok, Vrizlynn L. L. Thing,
- Abstract要約: 堅牢で軽量なマルチモーダルブラックボックス防御技術であるDefenSeeを提案する。
一般的なマルチモーダルなjailbreakと良質なデータセットの実験は、DefenSeeが一貫してMLLMの堅牢性を高めていることを示している。
これは、MM-SafetyBenchベンチマークを使用して、MiniGPT4上でのジェイルブレイク攻撃のASRを1.70%以下に削減する。
- 参考スコア(独自算出の注目度): 16.201446798861728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models (MLLMs), capable of processing text, images, and audio, have been widely adopted in various AI applications. However, recent MLLMs integrating images and text remain highly vulnerable to coordinated jailbreaks. Existing defenses primarily focus on the text, lacking robust multi-modal protection. As a result, studies indicate that MLLMs are more susceptible to malicious or unsafe instructions, unlike their text-only counterparts. In this paper, we proposed DefenSee, a robust and lightweight multi-modal black-box defense technique that leverages image variants transcription and cross-modal consistency checks, mimicking human judgment. Experiments on popular multi-modal jailbreak and benign datasets show that DefenSee consistently enhances MLLM robustness while better preserving performance on benign tasks compared to SOTA defenses. It reduces the ASR of jailbreak attacks to below 1.70% on MiniGPT4 using the MM-SafetyBench benchmark, significantly outperforming prior methods under the same conditions.
- Abstract(参考訳): テキスト、画像、音声を処理できるマルチモーダル大言語モデル(MLLM)は、様々なAIアプリケーションで広く採用されている。
しかし、画像とテキストを統合する最近のMLLMは、コーディネートされたジェイルブレイクに対して非常に脆弱なままである。
既存の防御は主にテキストに焦点を当てており、堅牢なマルチモーダル保護が欠如している。
その結果、MLLMはテキストのみの命令とは異なり、悪意のある命令や安全でない命令により敏感であることが示された。
本稿では,画像の変形と相互整合性チェックを活用し,人間の判断を模倣する,堅牢で軽量なマルチモーダルブラックボックス防御技術であるDefenSeeを提案する。
一般的なマルチモーダルなjailbreakと良質なデータセットの実験は、DefenSeeが一貫してMLLMの堅牢性を高め、SOTAの防御よりも良質なタスクのパフォーマンスを保っていることを示している。
これは、MM-SafetyBenchベンチマークを使用して、MiniGPT4上でのジェイルブレイク攻撃のASRを1.70%以下に削減し、同じ条件下での先行手法よりも大幅に優れていた。
関連論文リスト
- Enhanced MLLM Black-Box Jailbreaking Attacks and Defenses [0.6729108277517128]
テキストと画像のプロンプトによるブラックボックスジェイルブレイク手法を提案し,MLLMの評価を行う。
特に、挑発的指示を伴うテキストプロンプトと、突然変異やマルチイメージ機能を導入した画像プロンプトを設計した。
実験の結果,提案手法はオープンソースのMLLMとクローズドソースMLLMの両方のセキュリティを評価する能力を向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-10-24T07:35:37Z) - Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks [33.836587055255954]
MLLM(Multimodal large language model)は、様々な現実世界のアプリケーションにまたがって大きな有用性を示している。
しかしMLLMは、敵の入力が安全上の制約を崩壊させ、非倫理的な反応を引き起こす可能性があるジェイルブレイクに弱いままです。
強化学習に基づくブラックボックスジェイルブレイク手法であるPolyJailbreakを開発した。
論文 参考訳(メタデータ) (2025-10-20T08:03:39Z) - SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism [123.54980913741828]
MLLM(Multimodal Large Language Models)は、視覚的推論をサポートするためにLLMを拡張する。
MLLMは、マルチモーダルなジェイルブレイク攻撃や安全なデプロイメントを妨げる可能性がある。
セーフ・プルー・テン・レストア(Safe Prune-then-Restore, SafePTR)は、有害なトークンを脆弱な層で選択的にプルーすると同時に、その後の層で良質な機能を復元する、トレーニング不要の防御フレームワークである。
論文 参考訳(メタデータ) (2025-07-02T09:22:03Z) - Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。