論文の概要: Safe Multi-Agent Reinforcement Learning with Convergence to Generalized Nash Equilibrium
- arxiv url: http://arxiv.org/abs/2411.15036v1
- Date: Fri, 22 Nov 2024 16:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:02:27.776672
- Title: Safe Multi-Agent Reinforcement Learning with Convergence to Generalized Nash Equilibrium
- Title(参考訳): 一般化ナッシュ平衡に収束した安全マルチエージェント強化学習
- Authors: Zeyang Li, Navid Azizan,
- Abstract要約: マルチエージェント強化学習(MARL)は協調作業において顕著な成功を収めた。
MARLエージェントを現実世界のアプリケーションにデプロイすることは、重大な安全性上の課題を示す。
我々は,エージェントが訪れるすべての状態において,安全要件を強制する,$textitstate-wise$制約付き安全なMARLの新たな理論的枠組みを提案する。
複雑な高次元システムにおける実践的展開のために、$textitMulti-Agent Dual Actor-Critic$ (MADAC)を提案する。
- 参考スコア(独自算出の注目度): 6.169364905804677
- License:
- Abstract: Multi-agent reinforcement learning (MARL) has achieved notable success in cooperative tasks, demonstrating impressive performance and scalability. However, deploying MARL agents in real-world applications presents critical safety challenges. Current safe MARL algorithms are largely based on the constrained Markov decision process (CMDP) framework, which enforces constraints only on discounted cumulative costs and lacks an all-time safety assurance. Moreover, these methods often overlook the feasibility issue (the system will inevitably violate state constraints within certain regions of the constraint set), resulting in either suboptimal performance or increased constraint violations. To address these challenges, we propose a novel theoretical framework for safe MARL with $\textit{state-wise}$ constraints, where safety requirements are enforced at every state the agents visit. To resolve the feasibility issue, we leverage a control-theoretic notion of the feasible region, the controlled invariant set (CIS), characterized by the safety value function. We develop a multi-agent method for identifying CISs, ensuring convergence to a Nash equilibrium on the safety value function. By incorporating CIS identification into the learning process, we introduce a multi-agent dual policy iteration algorithm that guarantees convergence to a generalized Nash equilibrium in state-wise constrained cooperative Markov games, achieving an optimal balance between feasibility and performance. Furthermore, for practical deployment in complex high-dimensional systems, we propose $\textit{Multi-Agent Dual Actor-Critic}$ (MADAC), a safe MARL algorithm that approximates the proposed iteration scheme within the deep RL paradigm. Empirical evaluations on safe MARL benchmarks demonstrate that MADAC consistently outperforms existing methods, delivering much higher rewards while reducing constraint violations.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は協調作業において顕著な成功を収め、優れた性能とスケーラビリティを誇示している。
しかし、現実世界のアプリケーションにMARLエージェントを配置すると、重大な安全性上の課題が生じる。
現在の安全なMARLアルゴリズムは、主に制約付きマルコフ決定プロセス(CMDP)フレームワークに基づいている。
さらに、これらの手法は、しばしば実現可能性の問題(システムは、制約セットの特定の領域における状態制約を必然的に違反する)を見落とし、その結果、準最適性能または制約違反の増加をもたらす。
これらの課題に対処するため、我々は、エージェントが訪れるすべての状態において安全要件を強制する、$\textit{state-wise}$の制約を持つ安全なMARLのための新しい理論的枠組みを提案する。
実現可能性問題を解決するために,安全値関数を特徴とする制御不変集合 (CIS) の制御理論的概念を利用する。
我々は,CISを同定し,安全値関数上のナッシュ平衡への収束を確保するマルチエージェント手法を開発した。
CIS識別を学習プロセスに組み込むことにより、状態制約付きマルコフゲームにおける一般化ナッシュ均衡への収束を保証するマルチエージェントデュアルポリシー反復アルゴリズムを導入し、実現可能性と性能の最適なバランスを実現する。
さらに, 複雑な高次元システムにおいて, 安全なMARLアルゴリズムである$\textit{Multi-Agent Dual-Critic}$ (MADAC)を提案する。
安全なMARLベンチマークに関する実証的な評価は、MADACが既存の手法を一貫して上回り、制約違反を減らしながらより高い報酬を提供することを示した。
関連論文リスト
- Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Provably Learning Nash Policies in Constrained Markov Potential Games [90.87573337770293]
マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
論文 参考訳(メタデータ) (2023-06-13T13:08:31Z) - Interpreting Primal-Dual Algorithms for Constrained Multiagent
Reinforcement Learning [4.67306371596399]
ほとんどのC-MARLアルゴリズムは、報酬に付加されるペナルティ関数を通じて制約を強制するために、プリマル・デュアルアプローチを使用する。
制約関数をペナルティとして使用する標準的な慣行が安全性の弱い概念に繋がることを示す。
本稿では,制約付きマルチエージェント・アドバンスト・アクター・アトラクション (C-MAA2C) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-29T10:23:26Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Multi-Agent Constrained Policy Optimisation [17.772811770726296]
制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。
マルチエージェント制約付き政策最適化 (MACPO) とMAPPO-ラグランジアン (MAPPO-Lagrangian) は、制約付き政策最適化とマルチエージェント信頼領域学習の両方から理論を利用する。
我々は,様々なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
論文 参考訳(メタデータ) (2021-10-06T14:17:09Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。