論文の概要: Towards Comprehensive Testing on the Robustness of Cooperative
Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.07932v1
- Date: Sun, 17 Apr 2022 05:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 04:16:06.741989
- Title: Towards Comprehensive Testing on the Robustness of Cooperative
Multi-agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のロバスト性に関する総合的研究
- Authors: Jun Guo, Yonghong Chen, Yihang Hao, Zixin Yin, Yin Yu, Simin Li
- Abstract要約: c-MARLアルゴリズムが実際にデプロイされる前に、ロバスト性をテストすることが重要である。
MARLの既存の敵攻撃はテストに使用できるが、1つの堅牢性に制限されている。
我々は,c-MARLアルゴリズムの最初のロバストネステストフレームワークであるMARLSafeを提案する。
- 参考スコア(独自算出の注目度): 10.132303690998523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep neural networks (DNNs) have strengthened the performance of
cooperative multi-agent reinforcement learning (c-MARL), the agent policy can
be easily perturbed by adversarial examples. Considering the safety critical
applications of c-MARL, such as traffic management, power management and
unmanned aerial vehicle control, it is crucial to test the robustness of c-MARL
algorithm before it was deployed in reality. Existing adversarial attacks for
MARL could be used for testing, but is limited to one robustness aspects (e.g.,
reward, state, action), while c-MARL model could be attacked from any aspect.
To overcome the challenge, we propose MARLSafe, the first robustness testing
framework for c-MARL algorithms. First, motivated by Markov Decision Process
(MDP), MARLSafe consider the robustness of c-MARL algorithms comprehensively
from three aspects, namely state robustness, action robustness and reward
robustness. Any c-MARL algorithm must simultaneously satisfy these robustness
aspects to be considered secure. Second, due to the scarceness of c-MARL
attack, we propose c-MARL attacks as robustness testing algorithms from
multiple aspects. Experiments on \textit{SMAC} environment reveals that many
state-of-the-art c-MARL algorithms are of low robustness in all aspect,
pointing out the urgent need to test and enhance robustness of c-MARL
algorithms.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は協調型マルチエージェント強化学習(c-MARL)の性能を高める一方で、エージェントポリシーは敵の例によって容易に妨害される。
交通管理,電力管理,無人航空機制御など,c-MARLの安全上の重要な応用を考えると,c-MARLアルゴリズムが実際に展開される前に頑健性をテストすることが重要である。
MARLの既存の敵攻撃はテストに使用できるが、1つの堅牢性(報酬、状態、行動など)に制限され、c-MARLモデルはあらゆる側面から攻撃できる。
この課題を克服するために,我々は,c-MARLアルゴリズムの最初の堅牢性テストフレームワークであるMARLSafeを提案する。
まず、Markov Decision Process (MDP)によって動機付けられたMARLSafeは、c-MARLアルゴリズムの堅牢性を3つの側面から包括的に検討している。
任意のc-MARLアルゴリズムは、これらの堅牢性を同時に満たさなければならない。
第2に、c-MARL攻撃の少ないため、複数の側面からの堅牢性試験アルゴリズムとしてc-MARL攻撃を提案する。
textit{SMAC}環境の実験により、多くの最先端のc-MARLアルゴリズムは全ての面において低ロバスト性であり、c-MARLアルゴリズムのロバスト性をテストする必要が緊急に必要であることを指摘した。
関連論文リスト
- Safe Multi-Agent Reinforcement Learning with Bilevel Optimization in Autonomous Driving [3.5293763645151404]
そこで本稿では,二段階最適化を用いたスタックルバーグモデルに基づく安全なMARL法を提案する。
Constrained Stackelberg Q-learning (CSQ) と Constrained Stackelberg Multi-Agent Deep Deterministic Policy Gradient (CS-MADDPG) の2つの実用的なアルゴリズムを開発した。
CSQ と CS-MADDPG のアルゴリズムは,Bi-AC,MACPO,MAPPO-L などの強力な MARL ベースラインよりも,報酬と安全性の面で優れていた。
論文 参考訳(メタデータ) (2024-05-28T14:15:18Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Robust Multi-Agent Reinforcement Learning with State Uncertainty [17.916400875478377]
本研究における状態不確実性を考慮したMARLの問題点について検討する。
このような平衡を求めるために,頑健なマルチエージェントQ-ラーニングアルゴリズムを提案する。
実験の結果,提案したRMAQアルゴリズムは最適値関数に収束することがわかった。
論文 参考訳(メタデータ) (2023-07-30T12:31:42Z) - Maximum Entropy Heterogeneous-Agent Reinforcement Learning [47.652866966384586]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
本稿では,これらの問題を解決するために,アンフィストチャスティックな政策を学習するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
論文 参考訳(メタデータ) (2023-06-19T06:22:02Z) - Provably Learning Nash Policies in Constrained Markov Potential Games [90.87573337770293]
マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
論文 参考訳(メタデータ) (2023-06-13T13:08:31Z) - Certified Policy Smoothing for Cooperative Multi-Agent Reinforcement
Learning [17.957644784944755]
保証された認証境界を持つ動作を決定するために,c-MARLの新たな認証手法を提案する。
我々は、我々の認証境界が最先端のRL認証ソリューションよりもはるかに厳密であることを実証的に示す。
本手法は,すべてのモデルと環境に対して有意義なロバスト性を実現する。
論文 参考訳(メタデータ) (2022-12-22T14:36:27Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning
Library [82.77446613763809]
本稿では,マルチエージェントタスクとアルゴリズムの組み合わせを高速に開発するためのライブラリであるMARLlibを紹介する。
MARLlibは、マルチエージェントタスクとアルゴリズムの学習過程を効果的に切り離すことができる。
ライブラリのソースコードはGitHubで公開されている。
論文 参考訳(メタデータ) (2022-10-11T03:11:12Z) - Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to
Cooperative MARL [10.681450002239355]
Heterogeneous-Agent Mirror Learning (HAML)は、MARLアルゴリズム設計のための一般的なテンプレートを提供する。
HAMLテンプレートから得られたアルゴリズムが,関節報酬の単調改善の望ましい特性を満たすことを証明した。
本稿では,2つの有名なRLアルゴリズムであるHAA2C(A2C)とHADDPG(DDPG)のHAML拡張を提案する。
論文 参考訳(メタデータ) (2022-08-02T18:16:42Z) - Multi-Agent Constrained Policy Optimisation [17.772811770726296]
制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。
マルチエージェント制約付き政策最適化 (MACPO) とMAPPO-ラグランジアン (MAPPO-Lagrangian) は、制約付き政策最適化とマルチエージェント信頼領域学習の両方から理論を利用する。
我々は,様々なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
論文 参考訳(メタデータ) (2021-10-06T14:17:09Z) - Breaking the Curse of Many Agents: Provable Mean Embedding Q-Iteration
for Mean-Field Reinforcement Learning [135.64775986546505]
我々はマルチエージェント強化学習(MARL)におけるエージェントの対称性を利用する
我々は,平均場MARLを解くMF-FQIアルゴリズムを提案し,MF-FQIアルゴリズムの非漸近解析を確立する。
MF-FQIアルゴリズムは、多くの観測エージェントがMF-FQIアルゴリズムの性能を向上させるという意味で、「多くのエージェントの恵み」を享受する。
論文 参考訳(メタデータ) (2020-06-21T21:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。