論文の概要: Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning
- arxiv url: http://arxiv.org/abs/2603.20198v1
- Date: Thu, 05 Feb 2026 01:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.873874
- Title: Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning
- Title(参考訳): 視覚的排他的攻撃:エージェントプランニングによる自動マルチモーダルレッドチーム
- Authors: Yunbei Zhang, Yingqiang Ge, Weijie Xu, Yuhui Xu, Jihun Hamm, Chandan K. Reddy,
- Abstract要約: 現在のマルチモーダル・レッド・チームでは、画像はタイポグラフィーや敵対的ノイズによる悪意のあるペイロードのラッパーとして扱われている。
視覚的コンテンツの推論によってのみ害が発生する、よりレジリエントなイメージ・アズ・バシスの脅威である視覚的排他性(VE)を導入する。
マルチモーダル・マルチターンエージェント・プランニング(MM-Plan)を提案する。
- 参考スコア(独自算出の注目度): 29.219265407555426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current multimodal red teaming treats images as wrappers for malicious payloads via typography or adversarial noise. These attacks are structurally brittle, as standard defenses neutralize them once the payload is exposed. We introduce Visual Exclusivity (VE), a more resilient Image-as-Basis threat where harm emerges only through reasoning over visual content such as technical schematics. To systematically exploit VE, we propose Multimodal Multi-turn Agentic Planning (MM-Plan), a framework that reframes jailbreaking from turn-by-turn reaction to global plan synthesis. MM-Plan trains an attacker planner to synthesize comprehensive, multi-turn strategies, optimized via Group Relative Policy Optimization (GRPO), enabling self-discovery of effective strategies without human supervision. To rigorously benchmark this reasoning-dependent threat, we introduce VE-Safety, a human-curated dataset filling a critical gap in evaluating high-risk technical visual understanding. MM-Plan achieves 46.3% attack success rate against Claude 4.5 Sonnet and 13.8% against GPT-5, outperforming baselines by 2--5x where existing methods largely fail. These findings reveal that frontier models remain vulnerable to agentic multimodal attacks, exposing a critical gap in current safety alignment. Warning: This paper contains potentially harmful content.
- Abstract(参考訳): 現在のマルチモーダル・レッド・チームでは、画像はタイポグラフィーや敵対的ノイズによる悪意のあるペイロードのラッパーとして扱われている。
これらの攻撃は構造的に不安定であり、標準防御はペイロードが露出するとそれらを中和する。
技術的スキーマのような視覚的コンテンツの推論によってのみ害が発生する、より回復力のあるイメージ・アズ・バシスの脅威であるビジュアル・エクスクルーシビリティ(VE)を導入する。
VEを体系的に活用するために,マルチモーダル・マルチターンエージェント・プランニング(MM-Plan)を提案する。
MM-Planは、グループ相対ポリシー最適化(GRPO)を通じて最適化された総合的なマルチターン戦略を総合的に合成する攻撃プランナーを訓練し、人間の監督なしに効果的な戦略の自己発見を可能にする。
この推論に依存した脅威を厳格にベンチマークするために、リスクの高い技術的視覚的理解を評価する上で重要なギャップを埋める人為的なデータセットVE-Safetyを紹介します。
MM-PlanはClaude 4.5 Sonnetに対して46.3%、GPT-5に対して13.8%の攻撃成功率を達成した。
これらの結果から,フロンティアモデルがエージェント的マルチモーダル攻撃に弱いままであり,現在の安全アライメントの重大なギャップが明らかとなった。
警告: この論文は潜在的に有害な内容を含んでいる。
関連論文リスト
- OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs [36.57820295876294]
MLLMの安全性評価のための統一的,モジュール型,高スループットのRed-teamingフレームワークであるOpenRTを紹介した。
OpenRTのコアとなるのは,5次元にわたるモジュール分離を可能にする対角カーネルを導入することで,自動化された再チームのパラダイムシフトだ。
このフレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略など、37の多様な攻撃手法を統合している。
論文 参考訳(メタデータ) (2026-01-04T16:41:33Z) - Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-20T07:12:54Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Effective Black-Box Multi-Faceted Attacks Breach Vision Large Language Model Guardrails [32.627286570942445]
MultiFaceted Attackは、視覚大言語モデルにおける多層防御をバイパスするために設計されたアタックフレームワークである。
VLLMのマルチモーダルな性質を利用して、画像を通して有害なシステムプロンプトを注入する。
攻撃率は61.56%で、最先端の手法を少なくとも42.18%上回っている。
論文 参考訳(メタデータ) (2025-02-09T04:21:27Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。