論文の概要: JPRO: Automated Multimodal Jailbreaking via Multi-Agent Collaboration Framework
- arxiv url: http://arxiv.org/abs/2511.07315v1
- Date: Mon, 10 Nov 2025 17:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.389121
- Title: JPRO: Automated Multimodal Jailbreaking via Multi-Agent Collaboration Framework
- Title(参考訳): JPRO: マルチエージェントコラボレーションフレームワークによる自動マルチモーダルジェイルブレーク
- Authors: Yuxuan Zhou, Yang Bai, Kuofeng Gao, Tao Dai, Shu-Tao Xia,
- Abstract要約: JPROは、自動VLMジェイルブレイク用に設計された新しいマルチエージェント協調フレームワークである。
これは、アタックの多様性とスケーラビリティにおいて、以前の方法の欠点を克服する。
実験の結果,JPROは複数の高度なVLMに対して60%以上の攻撃成功率を達成した。
- 参考スコア(独自算出の注目度): 56.78050386956432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread application of large VLMs makes ensuring their secure deployment critical. While recent studies have demonstrated jailbreak attacks on VLMs, existing approaches are limited: they require either white-box access, restricting practicality, or rely on manually crafted patterns, leading to poor sample diversity and scalability. To address these gaps, we propose JPRO, a novel multi-agent collaborative framework designed for automated VLM jailbreaking. It effectively overcomes the shortcomings of prior methods in attack diversity and scalability. Through the coordinated action of four specialized agents and its two core modules: Tactic-Driven Seed Generation and Adaptive Optimization Loop, JPRO generates effective and diverse attack samples. Experimental results show that JPRO achieves over a 60\% attack success rate on multiple advanced VLMs, including GPT-4o, significantly outperforming existing methods. As a black-box attack approach, JPRO not only uncovers critical security vulnerabilities in multimodal models but also offers valuable insights for evaluating and enhancing VLM robustness.
- Abstract(参考訳): 大きなVLMの広範な適用により、セキュアなデプロイメントが重要になる。
近年の研究では、VLMに対するジェイルブレイク攻撃が実証されているが、既存のアプローチには制限がある。
これらのギャップに対処するために,自動VLMジェイルブレイク用に設計された新しいマルチエージェント協調フレームワークJPROを提案する。
これは、アタックの多様性とスケーラビリティにおける従来の方法の欠点を効果的に克服する。
4つの特殊エージェントとその2つのコアモジュール(戦術駆動シード生成と適応最適化ループ)の協調動作により、JPROは効果的で多様な攻撃サンプルを生成する。
GPT-4oを含む複数の先進VLMにおいてJPROは60倍以上の攻撃成功率を達成し,既存手法よりも優れていた。
JPROはブラックボックス攻撃アプローチとして、マルチモーダルモデルにおける重要なセキュリティ脆弱性を明らかにするだけでなく、VLMの堅牢性を評価し、強化するための貴重な洞察を提供する。
関連論文リスト
- Towards Robust Multimodal Large Language Models Against Jailbreak Attacks [24.491648943977605]
本稿では,敵対的雑音を発生させる攻撃ステップとモデル更新ステップとを交互に行うSafeMLLMを紹介する。
攻撃ステップでは、SafeMLLMは新たに提案されたコントラスト埋め込み攻撃(CoE-Attack)を通じて敵の摂動を発生させる。
我々は,SafeMLLMを6つのMLLMと6つのジェイルブレイク法で比較した。
論文 参考訳(メタデータ) (2025-02-02T03:45:49Z) - Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models [0.0]
HIMRDと呼ばれるマルチモーダルリスク分散ジェイルブレイク攻撃法はブラックボックスであり、マルチモーダルリスク分散戦略と有害な検索戦略という2つの要素から構成される。
HIMRDは、7つのオープンソースMLLMで平均攻撃成功率(ASR)を90%達成し、3つのクローズドソースMLLMで平均攻撃成功率(ASR)を約68%達成している。
論文 参考訳(メタデータ) (2024-12-08T13:20:45Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [70.43466586161345]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、我々はASRをGPT-4oで46.31%、Claude-3.5-Sonnetで19.65%と設定した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models [47.576957746503666]
BlackDANは、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである。
ジェイルブレイクを効果的に促進する高品質なプロンプトを生成する。
コンテキスト関連性を維持し、検出可能性を最小限にする。
論文 参考訳(メタデータ) (2024-10-13T11:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。