論文の概要: Provably Learning Nash Policies in Constrained Markov Potential Games
- arxiv url: http://arxiv.org/abs/2306.07749v1
- Date: Tue, 13 Jun 2023 13:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 13:41:05.724321
- Title: Provably Learning Nash Policies in Constrained Markov Potential Games
- Title(参考訳): 制限付きマルコフポテンシャルゲームにおけるナッシュポリシーの学習
- Authors: Pragnya Alatur, Giorgia Ramponi, Niao He, Andreas Krause
- Abstract要約: マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
- 参考スコア(独自算出の注目度): 90.87573337770293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) addresses sequential
decision-making problems with multiple agents, where each agent optimizes its
own objective. In many real-world instances, the agents may not only want to
optimize their objectives, but also ensure safe behavior. For example, in
traffic routing, each car (agent) aims to reach its destination quickly
(objective) while avoiding collisions (safety). Constrained Markov Games (CMGs)
are a natural formalism for safe MARL problems, though generally intractable.
In this work, we introduce and study Constrained Markov Potential Games
(CMPGs), an important class of CMGs. We first show that a Nash policy for CMPGs
can be found via constrained optimization. One tempting approach is to solve it
by Lagrangian-based primal-dual methods. As we show, in contrast to the
single-agent setting, however, CMPGs do not satisfy strong duality, rendering
such approaches inapplicable and potentially unsafe. To solve the CMPG problem,
we propose our algorithm Coordinate-Ascent for CMPGs (CA-CMPG), which provably
converges to a Nash policy in tabular, finite-horizon CMPGs. Furthermore, we
provide the first sample complexity bounds for learning Nash policies in
unknown CMPGs, and, which under additional assumptions, guarantee safe
exploration.
- Abstract(参考訳): マルチエージェント強化学習(marl:multi-agent reinforcement learning)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
多くの現実世界のインスタンスでは、エージェントは目的を最適化するだけでなく、安全な行動を確保する。
例えば、トラフィックルーティングでは、各車(エージェント)は衝突(安全)を避けながら、目的地(目的)に素早く到達することを目指している。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な形式である。
本稿では,CMG の重要なクラスである Constrained Markov potential Games (CMPGs) を紹介し,研究する。
まず,制約付き最適化によりCMPGのNashポリシーを見いだせることを示す。
誘惑的なアプローチの1つは、ラグランジアンベースの原始双対法によって解くことである。
示すように、シングルエージェント設定とは対照的に、CMPGは強い双対性を満足せず、そのようなアプローチは適用不可能であり、潜在的に安全ではない。
CMPG問題の解法として,表層有限水平CMPGにおけるナッシュポリシーに確実に収束するCMPGのコーディネート・アセンション(CA-CMPG)を提案する。
さらに、未知のCMPGでナッシュポリシーを学習するための最初のサンプル複雑性境界を提供し、さらなる仮定で安全な探索を保証する。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Safe Multi-Agent Reinforcement Learning with Bilevel Optimization in Autonomous Driving [3.5293763645151404]
そこで本稿では,二段階最適化を用いたスタックルバーグモデルに基づく安全なMARL法を提案する。
Constrained Stackelberg Q-learning (CSQ) と Constrained Stackelberg Multi-Agent Deep Deterministic Policy Gradient (CS-MADDPG) の2つの実用的なアルゴリズムを開発した。
CSQ と CS-MADDPG のアルゴリズムは,Bi-AC,MACPO,MAPPO-L などの強力な MARL ベースラインよりも,報酬と安全性の面で優れていた。
論文 参考訳(メタデータ) (2024-05-28T14:15:18Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - What is the Solution for State-Adversarial Multi-Agent Reinforcement Learning? [22.863241480702012]
Deep Reinforcement Learning (DRL)を通じて学んだ政策は、敵国の摂動攻撃に影響を受けやすい。
本稿では,国家逆境マルコフゲーム (SAMG) を提案するとともに,MARL の異なる解概念を状態不確実性の下で研究する試みを行う。
論文 参考訳(メタデータ) (2022-12-06T01:57:33Z) - Near-Optimal Multi-Agent Learning for Safe Coverage Control [76.99020416197631]
マルチエージェントのカバレッジ制御問題では、エージェントは環境をナビゲートして、ある密度のカバレッジを最大化する位置に到達する。
本稿では,エージェントの安全性を保ちながら,その密度を効率よく学習し,カバレッジ問題を概ね解決することを目的とする。
まず、安全を確実に保証しながら、有限時間で最適範囲に近づいた結果を挙げる。
論文 参考訳(メタデータ) (2022-10-12T16:33:34Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Learning to Coordinate in Multi-Agent Systems: A Coordinated
Actor-Critic Algorithm and Finite-Time Guarantees [43.10380224532313]
本研究ではアクター・クリティカル(AC)アルゴリズムを用いて,自律エージェントによる協調行動の出現について検討する。
本稿では、個別にパラメータ化されたポリシーが共有された部分とパーソナライズされた部分を持つコーディネートされたアクタ・クリティカル・アルゴリズム(CAC)のクラスを提案し、分析する。
この研究は、部分的にパーソナライズされたポリシーを持つ分散ACアルゴリズムに対する最初の有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2021-10-11T20:26:16Z) - Multi-Agent Constrained Policy Optimisation [17.772811770726296]
制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。
マルチエージェント制約付き政策最適化 (MACPO) とMAPPO-ラグランジアン (MAPPO-Lagrangian) は、制約付き政策最適化とマルチエージェント信頼領域学習の両方から理論を利用する。
我々は,様々なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
論文 参考訳(メタデータ) (2021-10-06T14:17:09Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。