論文の概要: DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning Algorithm considering Peak and Average Constraints
- arxiv url: http://arxiv.org/abs/2310.14348v2
- Date: Wed, 3 Apr 2024 19:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 20:03:06.970734
- Title: DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning Algorithm considering Peak and Average Constraints
- Title(参考訳): DePaint: ピークと平均制約を考慮した分散型マルチエージェント強化学習アルゴリズム
- Authors: Raheeb Hassan, K. M. Shadman Wadith, Md. Mamun or Rashid, Md. Mosaddek Khan,
- Abstract要約: 本稿では,この問題を解決するために,モーメントに基づく分散勾配法DePaintを提案する。
これは、ピーク制約と平均制約の両方を考慮した、プライバシ保存で完全に分散化されたマルチエージェント強化学習アルゴリズムとしては初めてのものである。
- 参考スコア(独自算出の注目度): 1.1549572298362787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The domain of safe multi-agent reinforcement learning (MARL), despite its potential applications in areas ranging from drone delivery and vehicle automation to the development of zero-energy communities, remains relatively unexplored. The primary challenge involves training agents to learn optimal policies that maximize rewards while adhering to stringent safety constraints, all without the oversight of a central controller. These constraints are critical in a wide array of applications. Moreover, ensuring the privacy of sensitive information in decentralized settings introduces an additional layer of complexity, necessitating innovative solutions that uphold privacy while achieving the system's safety and efficiency goals. In this paper, we address the problem of multi-agent policy optimization in a decentralized setting, where agents communicate with their neighbors to maximize the sum of their cumulative rewards while also satisfying each agent's safety constraints. We consider both peak and average constraints. In this scenario, there is no central controller coordinating the agents and both the rewards and constraints are only known to each agent locally/privately. We formulate the problem as a decentralized constrained multi-agent Markov Decision Problem and propose a momentum-based decentralized policy gradient method, DePAint, to solve it. To the best of our knowledge, this is the first privacy-preserving fully decentralized multi-agent reinforcement learning algorithm that considers both peak and average constraints. We then provide theoretical analysis and empirical evaluation of our algorithm in a number of scenarios and compare its performance to centralized algorithms that consider similar constraints.
- Abstract(参考訳): 安全なマルチエージェント強化学習(MARL)の分野は、ドローンの配達や車両の自動化からゼロエネルギコミュニティの開発まで幅広い分野に応用される可能性があるが、まだ明らかになっていない。
主な課題は、中央コントローラの監督なしに、厳格な安全制約に固執しながら報酬を最大化する最適なポリシーを学ぶための訓練エージェントである。
これらの制約は、幅広いアプリケーションにおいて重要である。
さらに、分散化された設定における機密情報のプライバシの確保は、システムの安全性と効率の目標を達成する一方で、プライバシを維持できる革新的なソリューションを必要とする、さらなる複雑さのレイヤを導入します。
本稿では,エージェントが各エージェントの安全制約を満たしつつ,その累積報酬の総和を最大化するために,各エージェントと通信する分散環境でのマルチエージェントポリシー最適化の問題に対処する。
ピーク制約と平均制約の両方を考慮する。
このシナリオでは、エージェントをコーディネートする中央コントローラはなく、各エージェントに報酬と制約の両方がローカルまたはプライベートにのみ知られています。
本稿では、分散制約付きマルチエージェントマルコフ決定問題としてこの問題を定式化し、モーメントに基づく分散ポリシー勾配法DePaintを提案する。
私たちの知る限りでは、これは、ピークと平均的な制約の両方を考慮に入れた、プライバシ保護で完全に分散化されたマルチエージェント強化学習アルゴリズムとしては初めてのものです。
次に,いくつかのシナリオにおいて,提案アルゴリズムの理論的解析と経験的評価を行い,その性能を同様の制約を考慮した集中型アルゴリズムと比較する。
関連論文リスト
- Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - An Analysis of Multi-Agent Reinforcement Learning for Decentralized
Inventory Control Systems [0.0]
在庫管理問題に対するほとんどのソリューションは、実際のサプライチェーンネットワークにおける組織的制約とは相容れない情報の集中化を前提としている。
本稿では,多エージェント強化学習を用いた在庫管理問題に対する分散データ駆動型ソリューションを提案する。
以上の結果から,マルチエージェントに近いポリシー最適化を中央集権的批判と組み合わせることで,中央集権的なデータ駆動型ソリューションに近い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T08:52:08Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Decentralized Stochastic Optimization with Inherent Privacy Protection [103.62463469366557]
分散最適化は、現代の協調機械学習、分散推定と制御、大規模センシングの基本的な構成要素である。
データが関与して以降、分散最適化アルゴリズムの実装において、プライバシ保護がますます重要になっている。
論文 参考訳(メタデータ) (2022-05-08T14:38:23Z) - Secure Distributed/Federated Learning: Prediction-Privacy Trade-Off for
Multi-Agent System [4.190359509901197]
分散学習(DLとFL)フレームワーク内で推論を行うビッグデータ時代において、中央サーバは大量のデータを処理する必要がある。
分散コンピューティングトポロジを考えると、プライバシは第一級の関心事になっている。
本研究では,テキストプライバシを意識したサーバを,エージェントごとの情報処理制約を考慮したマルチエージェント代入問題に適用する。
論文 参考訳(メタデータ) (2022-04-24T19:19:20Z) - Decentralized Safe Multi-agent Stochastic Optimal Control using Deep
FBSDEs and ADMM [16.312625634442092]
本稿では,障害発生時のマルチエージェント制御のための,安全でスケーラブルな分散ソリューションを提案する。
分散化は、各エージェントの最適化変数、コピー変数、隣人への拡張によって達成される。
安全なコンセンサスソリューションを実現するために,ADMMベースのアプローチを取り入れた。
論文 参考訳(メタデータ) (2022-02-22T03:57:23Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。