論文の概要: Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms
- arxiv url: http://arxiv.org/abs/2310.10810v1
- Date: Mon, 16 Oct 2023 20:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 18:56:38.636707
- Title: Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms
- Title(参考訳): 逆正則化によるロバスト多エージェント強化学習:理論基礎と安定アルゴリズム
- Authors: Alexander Bukharin, Yan Li, Yue Yu, Qingru Zhang, Zhehui Chen, Simiao
Zuo, Chao Zhang, Songan Zhang, and Tuo Zhao
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
- 参考スコア(独自算出の注目度): 79.61176746380718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Agent Reinforcement Learning (MARL) has shown promising results across
several domains. Despite this promise, MARL policies often lack robustness and
are therefore sensitive to small changes in their environment. This presents a
serious concern for the real world deployment of MARL algorithms, where the
testing environment may slightly differ from the training environment. In this
work we show that we can gain robustness by controlling a policy's Lipschitz
constant, and under mild conditions, establish the existence of a Lipschitz and
close-to-optimal policy. Based on these insights, we propose a new robust MARL
framework, ERNIE, that promotes the Lipschitz continuity of the policies with
respect to the state observations and actions by adversarial regularization.
The ERNIE framework provides robustness against noisy observations, changing
transition dynamics, and malicious actions of agents. However, ERNIE's
adversarial regularization may introduce some training instability. To reduce
this instability, we reformulate adversarial regularization as a Stackelberg
game. We demonstrate the effectiveness of the proposed framework with extensive
experiments in traffic light control and particle environments. In addition, we
extend ERNIE to mean-field MARL with a formulation based on distributionally
robust optimization that outperforms its non-robust counterpart and is of
independent interest. Our code is available at
https://github.com/abukharin3/ERNIE.
- Abstract(参考訳): MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
この約束にもかかわらず、MARLポリシーは堅牢性に欠けることが多く、そのため環境の変化に敏感である。
これは、テスト環境がトレーニング環境とわずかに異なる可能性があるMARLアルゴリズムの現実的な展開に対して深刻な懸念を示している。
本研究では,政策のリプシッツ定数を制御し,穏やかな条件下ではリプシッツとオプティカル・トゥ・オプティカル・ポリシーの存在を確立することで,堅牢性を得ることができることを示す。
これらの知見に基づいて,反則化による状態観察と行動に関して,政策のリプシッツ連続性を促進する新しい強固なmarlフレームワークernieを提案する。
ernieフレームワークは、ノイズの観測、遷移ダイナミクスの変化、エージェントの悪意のあるアクションに対する堅牢性を提供します。
しかし、ERNIEの逆正則化は、ある程度のトレーニング不安定をもたらす可能性がある。
この不安定さを軽減するため、逆正則化をスタックルバーグゲームとして再構成する。
提案手法の有効性を,交通光制御および粒子環境における広範囲な実験により実証する。
さらに、ERNIE を平均場 MARL に拡張し、分散的ロバストな最適化に基づく定式化を行い、非ロバストな最適化よりも優れ、独立した関心を持つ。
私たちのコードはhttps://github.com/abukharin3/ernieで利用可能です。
関連論文リスト
- Belief-Enriched Pessimistic Q-Learning against Adversarial State
Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。
既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。
本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:52:49Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Robust Multi-Agent Reinforcement Learning with State Uncertainty [17.916400875478377]
本研究における状態不確実性を考慮したMARLの問題点について検討する。
このような平衡を求めるために,頑健なマルチエージェントQ-ラーニングアルゴリズムを提案する。
実験の結果,提案したRMAQアルゴリズムは最適値関数に収束することがわかった。
論文 参考訳(メタデータ) (2023-07-30T12:31:42Z) - What is the Solution for State-Adversarial Multi-Agent Reinforcement Learning? [22.863241480702012]
Deep Reinforcement Learning (DRL)を通じて学んだ政策は、敵国の摂動攻撃に影響を受けやすい。
本稿では,国家逆境マルコフゲーム (SAMG) を提案するとともに,MARL の異なる解概念を状態不確実性の下で研究する試みを行う。
論文 参考訳(メタデータ) (2022-12-06T01:57:33Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Multi-Agent Constrained Policy Optimisation [17.772811770726296]
制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。
マルチエージェント制約付き政策最適化 (MACPO) とMAPPO-ラグランジアン (MAPPO-Lagrangian) は、制約付き政策最適化とマルチエージェント信頼領域学習の両方から理論を利用する。
我々は,様々なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
論文 参考訳(メタデータ) (2021-10-06T14:17:09Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。