論文の概要: What is the Solution for State Adversarial Multi-Agent Reinforcement
Learning?
- arxiv url: http://arxiv.org/abs/2212.02705v1
- Date: Tue, 6 Dec 2022 01:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:43:09.119576
- Title: What is the Solution for State Adversarial Multi-Agent Reinforcement
Learning?
- Title(参考訳): state adversarial multi-agent reinforcement learningのソリューションは何でしょう?
- Authors: Songyang Han, Sanbao Su, Sihong He, Shuo Han, Haizhao Yang, Fei Miao
- Abstract要約: 実世界のマルチエージェントシステムでは、状態推定はセンサー計測ノイズや敵によって妨害されることがある。
真の状態情報のみで訓練されたエージェントのポリシーは、対立状態の摂動に直面した際の最適解から逸脱する。
本稿では,国家逆境マルコフゲーム (SAMG) を提案し,国家不確実性の下でのMARLの基本特性の研究を初めて試みる。
- 参考スコア(独自算出の注目度): 7.611015903389956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various types of Multi-Agent Reinforcement Learning (MARL) methods have been
developed, assuming that agents' policies are based on true states. Recent
works have improved the robustness of MARL under uncertainties from the reward,
transition probability, or other partners' policies. However, in real-world
multi-agent systems, state estimations may be perturbed by sensor measurement
noise or even adversaries. Agents' policies trained with only true state
information will deviate from optimal solutions when facing adversarial state
perturbations during execution. MARL under adversarial state perturbations has
limited study. Hence, in this work, we propose a State-Adversarial Markov Game
(SAMG) and make the first attempt to study the fundamental properties of MARL
under state uncertainties. We prove that the optimal agent policy and the
robust Nash equilibrium do not always exist for an SAMG. Instead, we define the
solution concept, robust agent policy, of the proposed SAMG under adversarial
state perturbations, where agents want to maximize the worst-case expected
state value. We then design a gradient descent ascent-based robust MARL
algorithm to learn the robust policies for the MARL agents. Our experiments
show that adversarial state perturbations decrease agents' rewards for several
baselines from the existing literature, while our algorithm outperforms
baselines with state perturbations and significantly improves the robustness of
the MARL policies under state uncertainties.
- Abstract(参考訳): エージェントのポリシーが真の状態に基づいていると仮定して,MARL(Multi-Agent Reinforcement Learning)手法が開発されている。
最近の研究は、報酬、移行確率、その他のパートナーの政策の不確実性の下で、MARLの堅牢性を改善している。
しかし、実世界のマルチエージェントシステムでは、状態推定はセンサ測定ノイズや逆境によっても乱される可能性がある。
真の状態情報のみを訓練したエージェントのポリシーは、実行中に逆境状態の摂動に直面した場合に最適なソリューションから逸脱する。
逆境状態摂動下でのMARLの研究は限られている。
そこで本研究では,MARL の基本特性を状態不確実性下で研究する最初の試みとして,SAMG (State-Adversarial Markov Game) を提案する。
最適エージェントポリシーとロバストなナッシュ均衡が常にSAMGに対して存在するとは限らないことを証明している。
その代わりに,提案するsamgの解法であるロバスト・エージェント・ポリシーを敵対的状態摂動の下で定義し,エージェントは最悪の場合の期待状態値を最大化しようとする。
次に,勾配降下法に基づくロバストなmarlアルゴリズムを設計し,marlエージェントのロバストポリシを学習する。
提案手法は,既存の文献のベースラインに対するエージェントの報酬を減少させ,一方,本アルゴリズムは状態摂動でベースラインを上回り,状態の不確実性下でのmarlポリシーの頑健性を大幅に改善することを示す。
関連論文リスト
- Belief-Enriched Pessimistic Q-Learning against Adversarial State
Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。
既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。
本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:52:49Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Robust Multi-Agent Reinforcement Learning with State Uncertainty [17.916400875478377]
本研究における状態不確実性を考慮したMARLの問題点について検討する。
このような平衡を求めるために,頑健なマルチエージェントQ-ラーニングアルゴリズムを提案する。
実験の結果,提案したRMAQアルゴリズムは最適値関数に収束することがわかった。
論文 参考訳(メタデータ) (2023-07-30T12:31:42Z) - Provably Learning Nash Policies in Constrained Markov Potential Games [90.87573337770293]
マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
論文 参考訳(メタデータ) (2023-06-13T13:08:31Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:45:08Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。