論文の概要: Multi-Agent Constrained Policy Optimisation
- arxiv url: http://arxiv.org/abs/2110.02793v1
- Date: Wed, 6 Oct 2021 14:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:17:52.343953
- Title: Multi-Agent Constrained Policy Optimisation
- Title(参考訳): マルチエージェント制約付き政策最適化
- Authors: Shangding Gu, Jakub Grudzien Kuba, Munning Wen, Ruiqing Chen, Ziyan
Wang, Zheng Tian, Jun Wang, Alois Knoll, Yaodong Yang
- Abstract要約: 制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。
マルチエージェント制約付き政策最適化 (MACPO) とMAPPO-ラグランジアン (MAPPO-Lagrangian) は、制約付き政策最適化とマルチエージェント信頼領域学習の両方から理論を利用する。
我々は,様々なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
- 参考スコア(独自算出の注目度): 17.772811770726296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing reinforcement learning algorithms that satisfy safety constraints
is becoming increasingly important in real-world applications. In multi-agent
reinforcement learning (MARL) settings, policy optimisation with safety
awareness is particularly challenging because each individual agent has to not
only meet its own safety constraints, but also consider those of others so that
their joint behaviour can be guaranteed safe. Despite its importance, the
problem of safe multi-agent learning has not been rigorously studied; very few
solutions have been proposed, nor a sharable testing environment or benchmarks.
To fill these gaps, in this work, we formulate the safe MARL problem as a
constrained Markov game and solve it with policy optimisation methods. Our
solutions -- Multi-Agent Constrained Policy Optimisation (MACPO) and
MAPPO-Lagrangian -- leverage the theories from both constrained policy
optimisation and multi-agent trust region learning. Crucially, our methods
enjoy theoretical guarantees of both monotonic improvement in reward and
satisfaction of safety constraints at every iteration. To examine the
effectiveness of our methods, we develop the benchmark suite of Safe
Multi-Agent MuJoCo that involves a variety of MARL baselines. Experimental
results justify that MACPO/MAPPO-Lagrangian can consistently satisfy safety
constraints, meanwhile achieving comparable performance to strong baselines.
- Abstract(参考訳): 安全性の制約を満たす強化学習アルゴリズムの開発は、現実のアプリケーションではますます重要になっている。
マルチエージェント強化学習(MARL)では、各エージェントが自身の安全制約を満たすだけでなく、他のエージェントも共同行動の安全を保証するために考慮する必要があるため、安全意識を伴うポリシー最適化が特に困難である。
その重要性にもかかわらず、安全なマルチエージェント学習の問題は厳密には研究されていない。
これらのギャップを埋めるために、本稿では、制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。
我々のソリューション -- MACPO (Multi-Agent Constrained Policy Optimisation) とMAPPO-Lagrangian -- は、制約された政策最適化とマルチエージェント信頼領域学習の両方から理論を活用する。
本手法は,各イテレーションにおける報酬の単調な改善と安全制約の満足度の両方を理論的に保証する。
本手法の有効性を検討するため,多様なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
実験結果からMACPO/MAPPO-Lagrangianは安全性の制約を一貫して満たすことができ、高いベースラインに匹敵する性能を達成できる。
関連論文リスト
- Safe Multi-Agent Reinforcement Learning with Convergence to Generalized Nash Equilibrium [6.169364905804677]
マルチエージェント強化学習(MARL)は協調作業において顕著な成功を収めた。
MARLエージェントを現実世界のアプリケーションにデプロイすることは、重大な安全性上の課題を示す。
我々は,エージェントが訪れるすべての状態において,安全要件を強制する,$textitstate-wise$制約付き安全なMARLの新たな理論的枠組みを提案する。
複雑な高次元システムにおける実践的展開のために、$textitMulti-Agent Dual Actor-Critic$ (MADAC)を提案する。
論文 参考訳(メタデータ) (2024-11-22T16:08:42Z) - Multi-Agent Reinforcement Learning with Control-Theoretic Safety Guarantees for Dynamic Network Bridging [0.11249583407496219]
この研究は、マルチエージェント強化学習と制御理論的手法を統合するハイブリッドアプローチを導入し、安全で効率的な分散戦略を確実にする。
私たちのコントリビューションには、ミッションの目的を損なうことなく、エージェントの位置を動的に調整して安全状態を維持する新しいセットポイント更新アルゴリズムが含まれています。
論文 参考訳(メタデータ) (2024-04-02T01:30:41Z) - DeepSafeMPC: Deep Learning-Based Model Predictive Control for Safe
Multi-Agent Reinforcement Learning [11.407941376728258]
安全なマルチエージェント強化学習(DeepSafeMPC)のためのDeep Learning-based Model Predictive Controlと呼ばれる新しい手法を提案する。
DeepSafeMPCの重要な洞察は、環境力学を正確に予測するために、エンタライズされたディープラーニングモデルを活用することである。
Safe Multi-agent MuJoCo 環境を用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-11T03:17:33Z) - Conflict-Averse Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning [13.245000585002858]
多くの実世界の応用において、強化学習(RL)エージェントは、複数の目的を考慮し、安全ガイドラインに従うべきである。
制約付き多目的勾配集約アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoGAMO)を提案する。
論文 参考訳(メタデータ) (2024-03-01T04:57:13Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Provably Learning Nash Policies in Constrained Markov Potential Games [90.87573337770293]
マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
論文 参考訳(メタデータ) (2023-06-13T13:08:31Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。