論文の概要: ARMs: Adaptive Red-Teaming Agent against Multimodal Models with Plug-and-Play Attacks
- arxiv url: http://arxiv.org/abs/2510.02677v1
- Date: Fri, 03 Oct 2025 02:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.242347
- Title: ARMs: Adaptive Red-Teaming Agent against Multimodal Models with Plug-and-Play Attacks
- Title(参考訳): ARMs: プラグイン・アンド・プレイ攻撃を伴うマルチモーダルモデルに対するアダプティブ・レッドチームエージェント
- Authors: Zhaorun Chen, Xun Liu, Mintong Kang, Jiawei Zhang, Minzhou Pan, Shuang Yang, Bo Li,
- Abstract要約: 視覚言語モデル(VLM)に対する包括的リスク評価を行う適応型レッドチームエージェントARMを提案する。
ターゲットとなる有害な振る舞いやリスク定義を前提として、ARMは推論強化されたマルチステップオーケストレーションを使用して、多様な赤チーム戦略を自動的に最適化する。
ARMが生成するリピートインスタンスの多様性は著しく高く,VLMの新たな脆弱性が明らかになった。
- 参考スコア(独自算出の注目度): 30.39725685183195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As vision-language models (VLMs) gain prominence, their multimodal interfaces also introduce new safety vulnerabilities, making the safety evaluation challenging and critical. Existing red-teaming efforts are either restricted to a narrow set of adversarial patterns or depend heavily on manual engineering, lacking scalable exploration of emerging real-world VLM vulnerabilities. To bridge this gap, we propose ARMs, an adaptive red-teaming agent that systematically conducts comprehensive risk assessments for VLMs. Given a target harmful behavior or risk definition, ARMs automatically optimizes diverse red-teaming strategies with reasoning-enhanced multi-step orchestration, to effectively elicit harmful outputs from target VLMs. We propose 11 novel multimodal attack strategies, covering diverse adversarial patterns of VLMs (e.g., reasoning hijacking, contextual cloaking), and integrate 17 red-teaming algorithms into ARMs via model context protocol (MCP). To balance the diversity and effectiveness of the attack, we design a layered memory with an epsilon-greedy attack exploration algorithm. Extensive experiments on instance- and policy-based benchmarks show that ARMs achieves SOTA attack success rates, exceeding baselines by an average of 52.1% and surpassing 90% on Claude-4-Sonnet. We show that the diversity of red-teaming instances generated by ARMs is significantly higher, revealing emerging vulnerabilities in VLMs. Leveraging ARMs, we construct ARMs-Bench, a large-scale multimodal safety dataset comprising over 30K red-teaming instances spanning 51 diverse risk categories, grounded in both real-world multimodal threats and regulatory risks. Safety fine-tuning with ARMs-Bench substantially improves the robustness of VLMs while preserving their general utility, providing actionable guidance to improve multimodal safety alignment against emerging threats.
- Abstract(参考訳): 視覚言語モデル(VLM)が普及するにつれて、そのマルチモーダルインタフェースは新たな安全性の脆弱性も導入し、安全性評価を困難かつ重要なものにしている。
既存のレッドチームの取り組みは、敵の限られたパターンに制限されるか、手動のエンジニアリングに大きく依存する。
このギャップを埋めるため,VLMの総合的リスクアセスメントを体系的に行う適応型リピートエージェントARMを提案する。
ターゲットの有害な行動やリスク定義が与えられた場合、ARMは推論強化された多段階オーケストレーションによる多様な赤チーム戦略を自動的に最適化し、ターゲットのVLMから有害な出力を効果的に引き出す。
本稿では,11の新たなマルチモーダルアタック戦略を提案し,VLMの多様な対角パターン(例えば,ハイジャックの推論,コンテキストクローク)をカバーし,モデルコンテキストプロトコル(MCP)を介して17のレッドチームアルゴリズムをARMに統合する。
攻撃の多様性と効果のバランスをとるために,エプシロングレーディ攻撃探索アルゴリズムを用いて階層メモリを設計する。
インスタンスとポリシーベースのベンチマークに関する大規模な実験は、ARMがSOTA攻撃の成功率を平均52.1%以上、Claude-4-Sonnetで90%以上達成していることを示している。
ARMが生成するRed-teamingインスタンスの多様性は著しく高く,VLMの新たな脆弱性が明らかになった。
ARMを活用して、51の多様なリスクカテゴリにまたがる30万以上のレッドチームインスタンスからなる大規模マルチモーダル安全データセットARMs-Benchを構築し、実世界のマルチモーダル脅威と規制リスクの両方を基盤とする。
ARMs-Benchによる安全性の微調整は、VLMの堅牢性を大幅に向上し、その汎用性を保ちつつ、新興脅威に対するマルチモーダル安全性アライメントを改善するための実用的なガイダンスを提供する。
関連論文リスト
- Evo-MARL: Co-Evolutionary Multi-Agent Reinforcement Learning for Internalized Safety [54.228018540152924]
マルチモーダルな大規模言語モデル上に構築されたマルチエージェントシステム(MAS)は、強力な協調と性能を示す。
Evo-MARLは、新しいマルチエージェント強化学習フレームワークで、全てのタスクエージェントが防御能力を共同で取得できる。
Evo-MARLは攻撃成功率を最大22%削減し、推論タスクの精度を最大5%向上させる。
論文 参考訳(メタデータ) (2025-08-05T19:26:55Z) - From Static to Adaptive Defense: Federated Multi-Agent Deep Reinforcement Learning-Driven Moving Target Defense Against DoS Attacks in UAV Swarm Networks [23.908450903174725]
UAV群における能動的DoS緩和のための新しい枠組みを提案する。
我々は、リーダースイッチング、ルート突然変異、周波数ホッピングを含む軽量かつ協調的なMTD機構を設計する。
我々のアプローチは最先端のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2025-06-09T03:33:04Z) - Quality-Diversity Red-Teaming: Automated Generation of High-Quality and Diverse Attackers for Large Language Models [34.601888589730194]
本稿では,これらの制約に対処する新しいフレームワークであるQDRTを紹介する。
QDRTは、行動条件付きトレーニングを通じて目標駆動の多様性を実現し、オープンな方法で行動リプレイバッファを実装する。
我々の経験的評価は、QDRTがより多種多様で、広範囲のLLMに対してより効果的に攻撃を発生させることを示す。
論文 参考訳(メタデータ) (2025-06-08T13:07:41Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming [38.25556351567948]
textbfMulti-textbfTurn textbfSafety textbfAlignment (urapproach)フレームワーク。
レッドチームモデルは、敵のプロンプトを生成するために、思考誘導型マルチラウンドジェイルブレイク攻撃について学習する。
敵の反復最適化ステージ、レッドチームモデル、ターゲットモデルは、相互作用におけるそれぞれの能力を継続的に改善します。
論文 参考訳(メタデータ) (2025-05-22T08:22:57Z) - Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。