論文の概要: Robust Multi-Agent Reinforcement Learning with State Uncertainty
- arxiv url: http://arxiv.org/abs/2307.16212v1
- Date: Sun, 30 Jul 2023 12:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 16:57:15.866973
- Title: Robust Multi-Agent Reinforcement Learning with State Uncertainty
- Title(参考訳): 状態不確実性を考慮したロバストなマルチエージェント強化学習
- Authors: Sihong He, Songyang Han, Sanbao Su, Shuo Han, Shaofeng Zou, Fei Miao
- Abstract要約: 本研究における状態不確実性を考慮したMARLの問題点について検討する。
このような平衡を求めるために,頑健なマルチエージェントQ-ラーニングアルゴリズムを提案する。
実験の結果,提案したRMAQアルゴリズムは最適値関数に収束することがわかった。
- 参考スコア(独自算出の注目度): 17.916400875478377
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In real-world multi-agent reinforcement learning (MARL) applications, agents
may not have perfect state information (e.g., due to inaccurate measurement or
malicious attacks), which challenges the robustness of agents' policies. Though
robustness is getting important in MARL deployment, little prior work has
studied state uncertainties in MARL, neither in problem formulation nor
algorithm design. Motivated by this robustness issue and the lack of
corresponding studies, we study the problem of MARL with state uncertainty in
this work. We provide the first attempt to the theoretical and empirical
analysis of this challenging problem. We first model the problem as a Markov
Game with state perturbation adversaries (MG-SPA) by introducing a set of state
perturbation adversaries into a Markov Game. We then introduce robust
equilibrium (RE) as the solution concept of an MG-SPA. We conduct a fundamental
analysis regarding MG-SPA such as giving conditions under which such a robust
equilibrium exists. Then we propose a robust multi-agent Q-learning (RMAQ)
algorithm to find such an equilibrium, with convergence guarantees. To handle
high-dimensional state-action space, we design a robust multi-agent
actor-critic (RMAAC) algorithm based on an analytical expression of the policy
gradient derived in the paper. Our experiments show that the proposed RMAQ
algorithm converges to the optimal value function; our RMAAC algorithm
outperforms several MARL and robust MARL methods in multiple multi-agent
environments when state uncertainty is present. The source code is public on
\url{https://github.com/sihongho/robust_marl_with_state_uncertainty}.
- Abstract(参考訳): 実世界のマルチエージェント強化学習(MARL)アプリケーションでは、エージェントは完全な状態情報(例えば不正確な測定や悪意のある攻撃)を持っておらず、エージェントのポリシーの堅牢性に挑戦する。
MARLの展開においてロバスト性は重要になっているが、MARLにおける状態の不確実性の研究は、問題定式化やアルゴリズム設計においてもほとんど行われていない。
このロバスト性問題とそれに対応する研究の欠如により、本研究における状態の不確実性を伴うMARLの問題を研究する。
我々は、この困難な問題の理論的、実証的な分析に最初の試みを提供する。
まず,状態摂動敵のセットをマルコフゲームに導入することにより,状態摂動敵(mg-spa)を伴うマルコフゲームとして問題をモデル化する。
次に、MG-SPAの解概念としてロバスト平衡(RE)を導入する。
このような堅牢な平衡が存在する条件を与えるなど、MG-SPAに関する基本的な分析を行う。
そこで我々は, 収束保証とともに, その平衡を求める頑健なマルチエージェントQ-ラーニング (RMAQ) アルゴリズムを提案する。
高次元状態-作用空間を扱うために,本論文から導出されたポリシー勾配の解析的表現に基づいて,ロバストなマルチエージェントアクタ-クリティカル (RMAAC) アルゴリズムを設計する。
我々のRMAACアルゴリズムは,複数のマルチエージェント環境において,状態不確実性が存在する場合に,複数のMARL法および堅牢なMARL法より優れる。
ソースコードは \url{https://github.com/sihongho/robust_marl_with_state_uncertainty} で公開されている。
関連論文リスト
- Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning [37.80275600302316]
分布的にロバストなマルコフゲーム (RMG) は、MARLのロバスト性を高めるために提案されている。
RMGがマルチ緊急の呪いから逃れられるかどうか。
これは、RMGに対するマルチ緊急の呪いを破る最初のアルゴリズムである。
論文 参考訳(メタデータ) (2024-09-30T08:09:41Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Maximum Entropy Heterogeneous-Agent Reinforcement Learning [47.652866966384586]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
本稿では,これらの問題を解決するために,アンフィストチャスティックな政策を学習するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
論文 参考訳(メタデータ) (2023-06-19T06:22:02Z) - Provably Learning Nash Policies in Constrained Markov Potential Games [90.87573337770293]
マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
論文 参考訳(メタデータ) (2023-06-13T13:08:31Z) - What is the Solution for State-Adversarial Multi-Agent Reinforcement Learning? [22.863241480702012]
Deep Reinforcement Learning (DRL)を通じて学んだ政策は、敵国の摂動攻撃に影響を受けやすい。
本稿では,国家逆境マルコフゲーム (SAMG) を提案するとともに,MARL の異なる解概念を状態不確実性の下で研究する試みを行う。
論文 参考訳(メタデータ) (2022-12-06T01:57:33Z) - MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent
Reinforcement Learning [63.46052494151171]
テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。
各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-09-17T04:54:32Z) - Towards Comprehensive Testing on the Robustness of Cooperative
Multi-agent Reinforcement Learning [10.132303690998523]
c-MARLアルゴリズムが実際にデプロイされる前に、ロバスト性をテストすることが重要である。
MARLの既存の敵攻撃はテストに使用できるが、1つの堅牢性に制限されている。
我々は,c-MARLアルゴリズムの最初のロバストネステストフレームワークであるMARLSafeを提案する。
論文 参考訳(メタデータ) (2022-04-17T05:15:51Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Breaking the Curse of Many Agents: Provable Mean Embedding Q-Iteration
for Mean-Field Reinforcement Learning [135.64775986546505]
我々はマルチエージェント強化学習(MARL)におけるエージェントの対称性を利用する
我々は,平均場MARLを解くMF-FQIアルゴリズムを提案し,MF-FQIアルゴリズムの非漸近解析を確立する。
MF-FQIアルゴリズムは、多くの観測エージェントがMF-FQIアルゴリズムの性能を向上させるという意味で、「多くのエージェントの恵み」を享受する。
論文 参考訳(メタデータ) (2020-06-21T21:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。