Fugu-MT 論文翻訳(概要): AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning

論文の概要: AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2510.01586v1
Date: Thu, 02 Oct 2025 02:06:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-03 16:59:20.948555
Title: AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning
Title（参考訳）: AdvEvo-MARL:マルチエージェント強化学習における相互共進化による内部安全形成
Authors: Zhenyu Pan, Yiting Zhang, Zhuo Liu, Yolo Yunlong Tang, Zeliang Zhang, Haozheng Luo, Yuwei Han, Jianshu Zhang, Dennis Wu, Hong-Yu Chen, Haoran Lu, Haoyang Fang, Manling Li, Chenliang Xu, Philip S. Yu, Han Liu,
Abstract要約: AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
参考スコア（独自算出の注目度）: 78.5751183537704
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM-based multi-agent systems excel at planning, tool use, and role coordination, but their openness and interaction complexity also expose them to jailbreak, prompt-injection, and adversarial collaboration. Existing defenses fall into two lines: (i) self-verification that asks each agent to pre-filter unsafe instructions before execution, and (ii) external guard modules that police behaviors. The former often underperforms because a standalone agent lacks sufficient capacity to detect cross-agent unsafe chains and delegation-induced risks; the latter increases system overhead and creates a single-point-of-failure-once compromised, system-wide safety collapses, and adding more guards worsens cost and complexity. To solve these challenges, we propose AdvEvo-MARL, a co-evolutionary multi-agent reinforcement learning framework that internalizes safety into task agents. Rather than relying on external guards, AdvEvo-MARL jointly optimizes attackers (which synthesize evolving jailbreak prompts) and defenders (task agents trained to both accomplish their duties and resist attacks) in adversarial learning environments. To stabilize learning and foster cooperation, we introduce a public baseline for advantage estimation: agents within the same functional group share a group-level mean-return baseline, enabling lower-variance updates and stronger intra-group coordination. Across representative attack scenarios, AdvEvo-MARL consistently keeps attack-success rate (ASR) below 20%, whereas baselines reach up to 38.33%, while preserving-and sometimes improving-task accuracy (up to +3.67% on reasoning tasks). These results show that safety and utility can be jointly improved without relying on extra guard agents or added system overhead.
Abstract（参考訳）: LLMベースのマルチエージェントシステムは、計画、ツールの使用、役割調整に優れていますが、その開放性と相互作用の複雑さは、ジェイルブレイク、即時注入、敵の協力にも影響します。既存の防御は2つの線に分かれる。 i)実行前に各エージェントに安全でない命令を事前にフィルタリングするよう依頼する自己検証二警察行動の外部ガードモジュール前者は、スタンドアローンのエージェントが、クロスエージェントの安全でないチェーンやデリゲートによって引き起こされるリスクを検出する能力が不足しているため、しばしばパフォーマンスが低下する。これらの課題を解決するために,タスクエージェントに安全性を内部化するマルチエージェント強化学習フレームワークAdvEvo-MARLを提案する。外部の警備に頼るのではなく、AdvEvo-MARLは敵の学習環境において攻撃者(ジェイルブレイクのプロンプトを進化させる)と防衛者(彼らの義務と攻撃に対抗するために訓練されたタスクエージェント)を共同で最適化する。学習の安定化と協調の促進を目的として,同一機能グループ内のエージェントがグループレベルの平均復帰ベースラインを共有することにより,低分散更新とグループ内調整の強化を実現した。代表的な攻撃シナリオ全体では、AdvEvo-MARLは一貫して攻撃成功率(ASR)を20%以下に保ち、ベースラインは38.33%まで達する一方、保存および時には改善されたタスクの精度(推論タスクでは+3.67%まで)を保っている。これらの結果から,追加のガードエージェントや追加のシステムオーバーヘッドに頼ることなく,安全性と利便性を両立させることができることがわかった。

論文の概要: AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning

関連論文リスト