論文の概要: DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning
Algorithm considering Peak and Average Constraints
- arxiv url: http://arxiv.org/abs/2310.14348v1
- Date: Sun, 22 Oct 2023 16:36:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:22:00.875868
- Title: DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning
Algorithm considering Peak and Average Constraints
- Title(参考訳): depaint:ピークおよび平均制約を考慮した分散型安全マルチエージェント強化学習アルゴリズム
- Authors: Raheeb Hassan, K.M. Shadman Wadith, Md. Mamun or Rashid, Md. Mosaddek
Khan
- Abstract要約: 本稿では分散環境でのマルチエージェントポリシー最適化の問題に対処する。
モーメントに基づく分散型政策勾配法であるDePaintを提案し,その解法を提案する。
私たちの知る限りでは、これは、ピークと平均的な制約の両方を考慮に入れた、プライバシ保護で完全に分散化されたマルチエージェント強化学習アルゴリズムとしては初めてのものです。
- 参考スコア(独自算出の注目度): 1.2617078020344619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of safe multi-agent reinforcement learning, despite its potential
applications in various domains such as drone delivery and vehicle automation,
remains relatively unexplored. Training agents to learn optimal policies that
maximize rewards while considering specific constraints can be challenging,
particularly in scenarios where having a central controller to coordinate the
agents during the training process is not feasible. In this paper, we address
the problem of multi-agent policy optimization in a decentralized setting,
where agents communicate with their neighbors to maximize the sum of their
cumulative rewards while also satisfying each agent's safety constraints. We
consider both peak and average constraints. In this scenario, there is no
central controller coordinating the agents and both the rewards and constraints
are only known to each agent locally/privately. We formulate the problem as a
decentralized constrained multi-agent Markov Decision Problem and propose a
momentum-based decentralized policy gradient method, DePAint, to solve it. To
the best of our knowledge, this is the first privacy-preserving fully
decentralized multi-agent reinforcement learning algorithm that considers both
peak and average constraints. We also provide theoretical analysis and
empirical evaluation of our algorithm in various scenarios and compare its
performance to centralized algorithms that consider similar constraints.
- Abstract(参考訳): 安全なマルチエージェント強化学習の分野は、ドローンの配達や車両の自動化など、さまざまな分野に応用される可能性があるが、まだ明らかになっていない。
特定の制約を考慮しながら報酬を最大化する最適なポリシーを学ぶためのトレーニングエージェントは、特にトレーニングプロセス中にエージェントを調整する中央コントローラを持つことが不可能なシナリオでは困難である。
本稿では,各エージェントの安全制約を満たしながら,その累積報酬の合計を最大化するために,エージェントが隣人と通信する分散環境でのマルチエージェント政策最適化の問題に対処する。
我々はピークと平均の両方の制約を考える。
このシナリオでは、エージェントをコーディネートする中央コントローラはなく、報酬と制約は各エージェントがローカル/プライベートにのみ知っている。
本稿では、分散制約付きマルチエージェントマルコフ決定問題として問題を定式化し、モーメントに基づく分散ポリシー勾配法DePaintを提案する。
私たちの知る限りでは、ピーク値と平均値の両方の制約を考慮した、プライバシを保存、完全に分散したマルチエージェント強化学習アルゴリズムはこれが初めてです。
また,様々なシナリオにおけるアルゴリズムの理論的解析と経験的評価を行い,同様の制約を考慮した集中型アルゴリズムと比較した。
関連論文リスト
- Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - An Analysis of Multi-Agent Reinforcement Learning for Decentralized
Inventory Control Systems [0.0]
在庫管理問題に対するほとんどのソリューションは、実際のサプライチェーンネットワークにおける組織的制約とは相容れない情報の集中化を前提としている。
本稿では,多エージェント強化学習を用いた在庫管理問題に対する分散データ駆動型ソリューションを提案する。
以上の結果から,マルチエージェントに近いポリシー最適化を中央集権的批判と組み合わせることで,中央集権的なデータ駆動型ソリューションに近い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T08:52:08Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Decentralized Stochastic Optimization with Inherent Privacy Protection [103.62463469366557]
分散最適化は、現代の協調機械学習、分散推定と制御、大規模センシングの基本的な構成要素である。
データが関与して以降、分散最適化アルゴリズムの実装において、プライバシ保護がますます重要になっている。
論文 参考訳(メタデータ) (2022-05-08T14:38:23Z) - Secure Distributed/Federated Learning: Prediction-Privacy Trade-Off for
Multi-Agent System [4.190359509901197]
分散学習(DLとFL)フレームワーク内で推論を行うビッグデータ時代において、中央サーバは大量のデータを処理する必要がある。
分散コンピューティングトポロジを考えると、プライバシは第一級の関心事になっている。
本研究では,テキストプライバシを意識したサーバを,エージェントごとの情報処理制約を考慮したマルチエージェント代入問題に適用する。
論文 参考訳(メタデータ) (2022-04-24T19:19:20Z) - Decentralized Safe Multi-agent Stochastic Optimal Control using Deep
FBSDEs and ADMM [16.312625634442092]
本稿では,障害発生時のマルチエージェント制御のための,安全でスケーラブルな分散ソリューションを提案する。
分散化は、各エージェントの最適化変数、コピー変数、隣人への拡張によって達成される。
安全なコンセンサスソリューションを実現するために,ADMMベースのアプローチを取り入れた。
論文 参考訳(メタデータ) (2022-02-22T03:57:23Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。