論文の概要: Evo-MARL: Co-Evolutionary Multi-Agent Reinforcement Learning for Internalized Safety
- arxiv url: http://arxiv.org/abs/2508.03864v1
- Date: Tue, 05 Aug 2025 19:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.425065
- Title: Evo-MARL: Co-Evolutionary Multi-Agent Reinforcement Learning for Internalized Safety
- Title(参考訳): Evo-MARL:内部安全のための共進化型マルチエージェント強化学習
- Authors: Zhenyu Pan, Yiting Zhang, Yutong Zhang, Jianshu Zhang, Haozheng Luo, Yuwei Han, Dennis Wu, Hong-Yu Chen, Philip S. Yu, Manling Li, Han Liu,
- Abstract要約: マルチモーダルな大規模言語モデル上に構築されたマルチエージェントシステム(MAS)は、強力な協調と性能を示す。
Evo-MARLは、新しいマルチエージェント強化学習フレームワークで、全てのタスクエージェントが防御能力を共同で取得できる。
Evo-MARLは攻撃成功率を最大22%削減し、推論タスクの精度を最大5%向上させる。
- 参考スコア(独自算出の注目度): 52.12899798062852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent systems (MAS) built on multimodal large language models exhibit strong collaboration and performance. However, their growing openness and interaction complexity pose serious risks, notably jailbreak and adversarial attacks. Existing defenses typically rely on external guard modules, such as dedicated safety agents, to handle unsafe behaviors. Unfortunately, this paradigm faces two challenges: (1) standalone agents offer limited protection, and (2) their independence leads to single-point failure-if compromised, system-wide safety collapses. Naively increasing the number of guard agents further raises cost and complexity. To address these challenges, we propose Evo-MARL, a novel multi-agent reinforcement learning (MARL) framework that enables all task agents to jointly acquire defensive capabilities. Rather than relying on external safety modules, Evo-MARL trains each agent to simultaneously perform its primary function and resist adversarial threats, ensuring robustness without increasing system overhead or single-node failure. Furthermore, Evo-MARL integrates evolutionary search with parameter-sharing reinforcement learning to co-evolve attackers and defenders. This adversarial training paradigm internalizes safety mechanisms and continually enhances MAS performance under co-evolving threats. Experiments show that Evo-MARL reduces attack success rates by up to 22% while boosting accuracy by up to 5% on reasoning tasks-demonstrating that safety and utility can be jointly improved.
- Abstract(参考訳): マルチモーダルな大規模言語モデル上に構築されたマルチエージェントシステム(MAS)は、強力な協調と性能を示す。
しかし、その開放性と相互作用の複雑さは深刻なリスク、特に脱獄や敵の攻撃を引き起こす。
既存の防御は、通常、安全でない振る舞いを扱うために、専用の安全エージェントのような外部ガードモジュールに依存している。
残念ながら、このパラダイムは2つの課題に直面している。(1)スタンドアローンエージェントは限定的な保護を提供する。
ガードエージェントの数が増えれば、コストと複雑さが増す。
これらの課題に対処するため、我々は新しいマルチエージェント強化学習(MARL)フレームワークであるEvo-MARLを提案する。
外部の安全モジュールに頼るのではなく、Evo-MARLは各エージェントに対して、そのプライマリ機能を同時に実行し、敵の脅威に抵抗し、システムのオーバーヘッドや単一ノードの障害を増大させることなく堅牢性を確保するよう訓練する。
さらに、Evo-MARLは進化探索とパラメータ共有強化学習を統合して、攻撃者やディフェンダーを共同開発する。
この対戦訓練パラダイムは、安全機構を内包し、共同進化型脅威下でのMAS性能を継続的に向上する。
実験によると、Evo-MARLは攻撃成功率を最大22%削減し、安全性と実用性を共同で改善できるという推論タスクにおいて、精度を最大5%向上する。
関連論文リスト
- Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [15.843105510334388]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
本稿では,HEXACOパーソナリティモデルとReid Techniqueを組み合わせた心理学的検出フレームワークAgentXposedを提案する。
本研究は、意図的攻撃による構造的・行動的リスクを明らかにし、LLMベースのマルチエージェントシステムの安全性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [55.28518567702213]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast \& Slow Reasoning for Robust Agent Defense [7.923638619678924]
既存の防御は、有害なユーザ入力や安全でないエージェントの振る舞いによって引き起こされる複雑なセマンティックリスクを捉えるのに苦労する“セーフティチェック(Safety Checks)”に依存している。
我々は新しい防衛フレームワーク ALRPHFS (Adversarially Learned Risk Patterns with Hierarchical Fast & Slow Reasoning) を提案する。
ALRPHFS は,(1) リスクパターンの一般化可能な,バランスのとれたライブラリを反復的に洗練するオフライン対向自己学習ループ,(2) 検出効率と計算効率のバランスをとるオンライン階層型高速・低速推論エンジンの2つのコアコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-05-25T18:31:48Z) - An LLM-based Self-Evolving Security Framework for 6G Space-Air-Ground Integrated Networks [49.605335601285496]
6Gスペースエアグラウンド統合ネットワーク(SAGIN)は、様々なモバイルアプリケーションに対してユビキタスなカバレッジを提供する。
大規模言語モデル(LLM)に基づくSAGINの新しいセキュリティフレームワークを提案する。
当社のフレームワークは,さまざまな未知の攻撃に対して堅牢な,高精度なセキュリティ戦略を実現しています。
論文 参考訳(メタデータ) (2025-05-06T04:14:13Z) - Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems [1.2564343689544843]
我々は、セキュリティリスクとトレードオフを研究するために、共有目的に基づいて協力するAIエージェントのシミュレーションを開発する。
我々は、悪意のある指示の多重ホップ拡散という、感染した悪意のあるプロンプトを観察する。
この結果から,マルチエージェントシステムにおけるセキュリティと協調効率のトレードオフの可能性が示唆された。
論文 参考訳(メタデータ) (2025-02-26T14:00:35Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。