論文の概要: Mis-spoke or mis-lead: Achieving Robustness in Multi-Agent Communicative
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.03803v1
- Date: Mon, 9 Aug 2021 04:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:03:08.067866
- Title: Mis-spoke or mis-lead: Achieving Robustness in Multi-Agent Communicative
Reinforcement Learning
- Title(参考訳): mis-spoke or mis-lead: マルチエージェント・コミュニケーション強化学習における頑健性の実現
- Authors: Wanqi Xue, Wei Qiu, Bo An, Zinovi Rabinovich, Svetlana Obraztsova,
Chai Kiat Yeo
- Abstract要約: 我々は、MACRLメソッドに対するメッセージアタックの実施に向けた第一歩を踏み出す。
我々はメッセージ再構成による防衛手法を開発した。
我々は、悪意あるエージェントが、防御的コミュニケーション政策の変化と改善に適応する能力を考える。
- 参考スコア(独自算出の注目度): 37.24674549469648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies in multi-agent communicative reinforcement learning (MACRL)
demonstrate that multi-agent coordination can be significantly improved when
communication between agents is allowed. Meanwhile, advances in adversarial
machine learning (ML) have shown that ML and reinforcement learning (RL) models
are vulnerable to a variety of attacks that significantly degrade the
performance of learned behaviours. However, despite the obvious and growing
importance, the combination of adversarial ML and MACRL remains largely
uninvestigated. In this paper, we make the first step towards conducting
message attacks on MACRL methods. In our formulation, one agent in the
cooperating group is taken over by an adversary and can send malicious messages
to disrupt a deployed MACRL-based coordinated strategy during the deployment
phase. We further our study by developing a defence method via message
reconstruction. Finally, we address the resulting arms race, i.e., we consider
the ability of the malicious agent to adapt to the changing and improving
defensive communicative policies of the benign agents. Specifically, we model
the adversarial MACRL problem as a two-player zero-sum game and then utilize
Policy-Space Response Oracle to achieve communication robustness. Empirically,
we demonstrate that MACRL methods are vulnerable to message attacks while our
defence method the game-theoretic framework can effectively improve the
robustness of MACRL.
- Abstract(参考訳): 近年,Multi-agent communicative reinforcement learning (MACRL) の研究により,エージェント間の通信が許可された場合,多エージェント協調が著しく改善できることが示されている。
一方、機械学習(ML)の進歩は、機械学習と強化学習(RL)モデルが、学習行動のパフォーマンスを著しく低下させる様々な攻撃に対して脆弱であることを示している。
しかし, MLとMACRLの組み合わせは, 明らかかつ重要度が増しているにもかかわらず, ほとんど検討されていない。
本稿では,MACRL法に対するメッセージアタックの実施に向けて第一歩を踏み出す。
提案方式では,協調グループ内の1つのエージェントが敵に乗っ取られ,デプロイフェーズ中にデプロイされたmacrlベースの協調戦略をディスラプトするために悪意のあるメッセージを送信できる。
我々は、メッセージ再構成による防衛手法の開発により研究をさらに進める。
最終的に、我々は、結果として生じる軍備競争、すなわち、悪意あるエージェントが、良心あるエージェントの防御的コミュニケーション政策の変化と改善に適応する能力を考える。
具体的には、対戦型MACRL問題を2プレイヤーゼロサムゲームとしてモデル化し、次にポリシー空間応答オラクルを用いて通信堅牢性を実現する。
実証実験により,MACRL法はメッセージ攻撃に対して脆弱であり,防御手法であるゲーム理論フレームワークはMACRLの堅牢性を効果的に向上できることを示した。
関連論文リスト
- Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Robust Communicative Multi-Agent Reinforcement Learning with Active
Defense [38.6815513394882]
エージェントは、潜在的に有害なメッセージが最終決定に与える影響を自動的に軽減するアクティブ・ディフェンス戦略を提案する。
我々は、受信したメッセージの信頼性を推定し、最終決定への影響を調整するアクティブディフェンス・マルチエージェント通信フレームワーク(ADMAC)を設計する。
既存の手法よりもADMACの方が優れていることは、4種類の攻撃下での3つのコミュニケーションクリティカルなタスクの実験によって検証される。
論文 参考訳(メタデータ) (2023-12-16T09:02:56Z) - Enhancing the Robustness of QMIX against State-adversarial Attacks [6.627954554805906]
本稿では,SARLアルゴリズムの堅牢性を向上し,それらをマルチエージェントシナリオに拡張する4つの手法について論じる。
我々は、この研究で様々な攻撃を用いてモデルを訓練する。
次に、トレーニングフェーズ全体を通して、対応する攻撃に適応して、他の攻撃を用いて教えられたモデルをテストする。
論文 参考訳(メタデータ) (2023-07-03T10:10:34Z) - Certifiably Robust Policy Learning against Adversarial Communication in
Multi-agent Systems [51.6210785955659]
多くのマルチエージェント強化学習(MARL)では,エージェントが情報を共有し,適切な判断を下す上でコミュニケーションが重要である。
しかし、ノイズや潜在的な攻撃者が存在する現実世界のアプリケーションに訓練された通信エージェントを配置すると、通信ベースのポリシーの安全性は過小評価されている深刻な問題となる。
本研究では,攻撃者が任意の$CfracN-12$エージェントから被害者エージェントへの通信を任意に変更できる,$N$エージェントを備えた環境を検討する。
論文 参考訳(メタデータ) (2022-06-21T07:32:18Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Adaptive Adversarial Training for Meta Reinforcement Learning [6.576665763018747]
モデルに依存しないメタラーニング(MAML)を基盤として,GAN (Generative Adversarial Network) を用いたMRLの逆サンプル生成手法を提案する。
これにより,メタトレーニングプロセスにおいて,これらの攻撃を活用することで,MRLの攻撃に対する堅牢性を高めることができる。
論文 参考訳(メタデータ) (2021-04-27T16:23:34Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Adversarial Attacks On Multi-Agent Communication [80.4392160849506]
現代の自律システムはすぐに大規模に展開され、協調型マルチエージェントシステムの可能性を広げる。
このような利点は、セキュリティ侵害に対して脆弱であることが示されている通信チャネルに大きく依存している。
本稿では,エージェントが学習した中間表現を共有してコミュニケーションする新しいマルチエージェント環境において,このような攻撃を探索する。
論文 参考訳(メタデータ) (2021-01-17T00:35:26Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。