論文の概要: DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning
Algorithm considering Peak and Average Constraints
- arxiv url: http://arxiv.org/abs/2310.14348v1
- Date: Sun, 22 Oct 2023 16:36:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:22:00.875868
- Title: DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning
Algorithm considering Peak and Average Constraints
- Title(参考訳): depaint:ピークおよび平均制約を考慮した分散型安全マルチエージェント強化学習アルゴリズム
- Authors: Raheeb Hassan, K.M. Shadman Wadith, Md. Mamun or Rashid, Md. Mosaddek
Khan
- Abstract要約: 本稿では分散環境でのマルチエージェントポリシー最適化の問題に対処する。
モーメントに基づく分散型政策勾配法であるDePaintを提案し,その解法を提案する。
私たちの知る限りでは、これは、ピークと平均的な制約の両方を考慮に入れた、プライバシ保護で完全に分散化されたマルチエージェント強化学習アルゴリズムとしては初めてのものです。
- 参考スコア(独自算出の注目度): 1.2617078020344619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of safe multi-agent reinforcement learning, despite its potential
applications in various domains such as drone delivery and vehicle automation,
remains relatively unexplored. Training agents to learn optimal policies that
maximize rewards while considering specific constraints can be challenging,
particularly in scenarios where having a central controller to coordinate the
agents during the training process is not feasible. In this paper, we address
the problem of multi-agent policy optimization in a decentralized setting,
where agents communicate with their neighbors to maximize the sum of their
cumulative rewards while also satisfying each agent's safety constraints. We
consider both peak and average constraints. In this scenario, there is no
central controller coordinating the agents and both the rewards and constraints
are only known to each agent locally/privately. We formulate the problem as a
decentralized constrained multi-agent Markov Decision Problem and propose a
momentum-based decentralized policy gradient method, DePAint, to solve it. To
the best of our knowledge, this is the first privacy-preserving fully
decentralized multi-agent reinforcement learning algorithm that considers both
peak and average constraints. We also provide theoretical analysis and
empirical evaluation of our algorithm in various scenarios and compare its
performance to centralized algorithms that consider similar constraints.
- Abstract(参考訳): 安全なマルチエージェント強化学習の分野は、ドローンの配達や車両の自動化など、さまざまな分野に応用される可能性があるが、まだ明らかになっていない。
特定の制約を考慮しながら報酬を最大化する最適なポリシーを学ぶためのトレーニングエージェントは、特にトレーニングプロセス中にエージェントを調整する中央コントローラを持つことが不可能なシナリオでは困難である。
本稿では,各エージェントの安全制約を満たしながら,その累積報酬の合計を最大化するために,エージェントが隣人と通信する分散環境でのマルチエージェント政策最適化の問題に対処する。
我々はピークと平均の両方の制約を考える。
このシナリオでは、エージェントをコーディネートする中央コントローラはなく、報酬と制約は各エージェントがローカル/プライベートにのみ知っている。
本稿では、分散制約付きマルチエージェントマルコフ決定問題として問題を定式化し、モーメントに基づく分散ポリシー勾配法DePaintを提案する。
私たちの知る限りでは、ピーク値と平均値の両方の制約を考慮した、プライバシを保存、完全に分散したマルチエージェント強化学習アルゴリズムはこれが初めてです。
また,様々なシナリオにおけるアルゴリズムの理論的解析と経験的評価を行い,同様の制約を考慮した集中型アルゴリズムと比較した。
関連論文リスト
- Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning [49.65958529941962]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Decentralized Safe Multi-agent Stochastic Optimal Control using Deep
FBSDEs and ADMM [16.312625634442092]
本稿では,障害発生時のマルチエージェント制御のための,安全でスケーラブルな分散ソリューションを提案する。
分散化は、各エージェントの最適化変数、コピー変数、隣人への拡張によって達成される。
安全なコンセンサスソリューションを実現するために,ADMMベースのアプローチを取り入れた。
論文 参考訳(メタデータ) (2022-02-22T03:57:23Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - Discrete-Time Mean Field Control with Environment States [25.44061731738579]
平均フィールド制御と平均フィールドゲームは、多くのエージェントとの大規模なマルチエージェント問題のためのトラクタブルソリューションとして確立されています。
有限エージェントケースでのエージェント数の増加に伴い、近似最適性を厳格に確立します。
動的プログラミングの原則が成り立ち、その結果、最適な定常的なポリシーが存在することが分かりました。
論文 参考訳(メタデータ) (2021-04-30T10:58:01Z) - Learning Safe Multi-Agent Control with Decentralized Neural Barrier
Certificates [19.261536710315028]
エージェントが静的な障害物や衝突に対する衝突を避けて目標を達成すべきマルチエージェント安全制御問題について検討する。
私達の中心の考えは安全証明書として制御障壁機能を学ぶことと複数のエージェント制御方針を共同で学ぶことです。
本稿では,特定の関数クラスに対して一般化を保証し,分散的に実装可能な新しい共同学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-14T03:17:17Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。