論文の概要: Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks
- arxiv url: http://arxiv.org/abs/2603.04364v1
- Date: Wed, 04 Mar 2026 18:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.452859
- Title: Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks
- Title(参考訳): Dual-Modality Multi-Stage Adversarial Safety Training: クロスモーダル攻撃に対するマルチモーダルWebエージェントのロバスト化
- Authors: Haoyu Liu, Dingcheng Li, Lukas Rutishauser, Zeyu Zheng,
- Abstract要約: 本稿では,エージェントと攻撃者の相互作用を2人のプレイヤーによるゼロサムマルコフゲームとして形式化し,両プレイヤーを3段階のパイプラインで協調訓練するフレームワークを提案する。
提案手法は,訓練ベースおよび即時防御の確立に優れていた。
- 参考スコア(独自算出の注目度): 23.881766496924502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal web agents that process both screenshots and accessibility trees are increasingly deployed to interact with web interfaces, yet their dual-stream architecture opens an underexplored attack surface: an adversary who injects content into the webpage DOM simultaneously corrupts both observation channels with a consistent deceptive narrative. Our vulnerability analysis on MiniWob++ reveals that attacks including a visual component far outperform text-only injections, exposing critical gaps in text-centric VLM safety training. Motivated by this finding, we propose Dual-Modality Multi-Stage Adversarial Safety Training (DMAST), a framework that formalizes the agent-attacker interaction as a two-player zero-sum Markov game and co-trains both players through a three-stage pipeline: (1) imitation learning from a strong teacher model, (2) oracle-guided supervised fine-tuning that uses a novel zero-acknowledgment strategy to instill task-focused reasoning under adversarial noise, and (3) adversarial reinforcement learning via Group Relative Policy Optimization (GRPO) self-play. On out-of-distribution tasks, DMAST substantially mitigates adversarial risks while simultaneously doubling task completion efficiency. Our approach significantly outperforms established training-based and prompt-based defenses, demonstrating genuine co-evolutionary progress and robust generalization to complex, unseen environments.
- Abstract(参考訳): スクリーンショットとアクセシビリティツリーの両方を処理するマルチモーダルなWebエージェントは、Webインターフェースと対話するためにデプロイされることが多いが、そのデュアルストリームアーキテクチャは、未探索のアタックサーフェスを開く。
MiniWob++の脆弱性分析では、ビジュアルコンポーネントを含む攻撃はテキストのみのインジェクションよりも優れており、テキスト中心のVLM安全性トレーニングにおいて重大なギャップが明らかになっている。
この発見を動機として,2段階のゼロサムマルコフゲームとしてエージェントと攻撃者の相互作用を形式化し,両者を3段階のパイプラインで訓練するフレームワークであるDual-Modality Multi-Stage Adversarial Safety Training (DMAST)を提案する。
アウト・オブ・ディストリビューションタスクでは、DMASTはタスク完了効率を同時に倍増させながら、敵のリスクを大幅に軽減する。
われわれのアプローチは、訓練ベースと即時ベースの防御の確立を大きく上回り、真の共進化的進歩と、複雑で目に見えない環境への堅牢な一般化を示す。
関連論文リスト
- Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization [51.12422886183246]
大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
ACE-Safetyは、2つの重要な革新的手順をシームレスに統合することにより、攻撃と防御モデルを協調的に最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T15:23:41Z) - Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification [52.63017280231648]
人物再識別(ReID)は、歩行者軌道追跡などの現実の多くの応用において、基本的な課題である。
Person ReIDモデルは、歩行者画像に対する知覚不能な摂動が完全に誤った予測を引き起こすような、敵の攻撃に非常に敏感である。
本稿では,2つの相からなる二重不変防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-13T03:56:40Z) - Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning [89.1856483797116]
MLLMをベースとした組込みエージェントに視覚的バックドアを注入する最初のフレームワークであるBEATを紹介する。
テキストトリガーとは異なり、オブジェクトトリガーは視点や照明の幅が広いため、確実に移植することは困難である。
BEATは攻撃の成功率を最大80%まで達成し、強い良識のあるタスクパフォーマンスを維持します。
論文 参考訳(メタデータ) (2025-10-31T16:50:49Z) - Neutral Agent-based Adversarial Policy Learning against Deep Reinforcement Learning in Multi-party Open Systems [3.431456142488844]
マルチパーティオープンシステムにおける様々なタスクシナリオにまたがる中立的エージェントベースアプローチを提案する。
本稿では,Starcraft II と自律走行シミュレーションプラットフォーム Highway-env に基づく SMAC プラットフォーム上で提案手法を評価する。
論文 参考訳(メタデータ) (2025-10-13T02:53:22Z) - Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - DINA: A Dual Defense Framework Against Internal Noise and External Attacks in Natural Language Processing [12.279803315688218]
大規模言語モデル(LLM)と生成AIは、顧客サービスとモデレーションアプリケーションにますます統合される。
本研究では、DINA(Dual Defense against Internal Noise and Adversarial Attacks)を導入して、これらの二重敵の脅威を特定し、体系的に対処する。
提案手法は,コンピュータビジョンからの高度な雑音ラベル学習手法を適応し,それを対角訓練と統合することにより,内的ラベル妨害と外的対向的摂動を同時に緩和する。
論文 参考訳(メタデータ) (2025-08-04T16:33:17Z) - Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。
攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。
本手法は,攻撃成功率を少なくとも30.1%向上させることで,最先端の攻撃よりも優れる。
論文 参考訳(メタデータ) (2025-04-19T16:28:03Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。