論文の概要: Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method
- arxiv url: http://arxiv.org/abs/2111.00438v1
- Date: Sun, 31 Oct 2021 09:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 09:29:48.207204
- Title: Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method
- Title(参考訳): 分散型マルチエージェント強化学習:オフポリティ法
- Authors: Kuo Li, Qing-Shan Jia
- Abstract要約: 本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
- 参考スコア(独自算出の注目度): 6.261762915564555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We discuss the problem of decentralized multi-agent reinforcement learning
(MARL) in this work. In our setting, the global state, action, and reward are
assumed to be fully observable, while the local policy is protected as privacy
by each agent, and thus cannot be shared with others. There is a communication
graph, among which the agents can exchange information with their neighbors.
The agents make individual decisions and cooperate to reach a higher
accumulated reward.
Towards this end, we first propose a decentralized actor-critic (AC) setting.
Then, the policy evaluation and policy improvement algorithms are designed for
discrete and continuous state-action-space Markov Decision Process (MDP)
respectively. Furthermore, convergence analysis is given under the
discrete-space case, which guarantees that the policy will be reinforced by
alternating between the processes of policy evaluation and policy improvement.
In order to validate the effectiveness of algorithms, we design experiments and
compare them with previous algorithms, e.g., Q-learning \cite{watkins1992q} and
MADDPG \cite{lowe2017multi}. The results show that our algorithms perform
better from the aspects of both learning speed and final performance. Moreover,
the algorithms can be executed in an off-policy manner, which greatly improves
the data efficiency compared with on-policy algorithms.
- Abstract(参考訳): 本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
私たちの設定では、グローバルステート、アクション、報酬は完全に監視可能であると仮定され、ローカルポリシーは各エージェントによってプライバシとして保護されるため、他の人と共有することはできない。
通信グラフがあり、エージェントは隣人と情報を交換することができる。
エージェントは個々の決定を行い、より高い報酬を得るために協力します。
そこで我々はまず,分散型アクター批判(AC)設定を提案する。
次に,政策評価と政策改善アルゴリズムをそれぞれ,離散的かつ連続的な状態空間マルコフ決定プロセス(MDP)のために設計する。
さらに、政策評価のプロセスと政策改善のプロセスの交互化によって政策が強化されることを保証する離散空間の場合、収束分析を行う。
アルゴリズムの有効性を検証するために、実験を設計・比較し、q-learning \cite{watkins1992q} や maddpg \cite{lowe2017multi} など以前のアルゴリズムと比較する。
その結果,学習速度と最終性能の両面から,アルゴリズムの性能が向上した。
さらに、アルゴリズムはオフポリシー方式で実行することができ、オンポリシーアルゴリズムに比べてデータ効率が大幅に向上する。
関連論文リスト
- Approximate Linear Programming for Decentralized Policy Iteration in Cooperative Multi-agent Markov Decision Processes [5.842054972839244]
我々は,mエージェントを含む協調的マルチエージェントマルコフ決定過程について考察する。
マルチエージェント設定のポリシーイテレーションプロセスでは、アクションの数はエージェントの数とともに指数関数的に増加する。
本稿では,関数近似を用いた近似線形計画法を用いて,近似分散型ポリシー反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T14:14:13Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Scalable and Sample Efficient Distributed Policy Gradient Algorithms in
Multi-Agent Networked Systems [12.327745531583277]
Reward-Coupled Multi-Agent Reinforcement LearningからREC-MARLと命名した。
REC-MARLは、無線ネットワークにおけるリアルタイムアクセス制御や分散電力制御など、様々な重要な応用がある。
論文 参考訳(メタデータ) (2022-12-13T03:44:00Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Cooperative Multi-Agent Reinforcement Learning with Partial Observations [16.895704973433382]
マルチエージェント強化学習(MARL)のための分散ゼロ階ポリシー最適化手法を提案する。
エージェントは、グローバルに蓄積された報酬の局所的な見積もりを使用して、ローカルポリシー機能を更新するために必要なローカルポリシー勾配を計算することができる。
本研究では, 一定段差の分散ゼロ階次ポリシ最適化手法が, 大域的目的関数の定常点であるポリシの近傍に収束することを示す。
論文 参考訳(メタデータ) (2020-06-18T19:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。