論文の概要: Scalable and Sample Efficient Distributed Policy Gradient Algorithms in
Multi-Agent Networked Systems
- arxiv url: http://arxiv.org/abs/2212.06357v1
- Date: Tue, 13 Dec 2022 03:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 15:30:59.195394
- Title: Scalable and Sample Efficient Distributed Policy Gradient Algorithms in
Multi-Agent Networked Systems
- Title(参考訳): マルチエージェントネットワークシステムにおけるスケーラブル・サンプル分散ポリシー勾配アルゴリズム
- Authors: Xin Liu, Honghao Wei, Lei Ying
- Abstract要約: Reward-Coupled Multi-Agent Reinforcement LearningからREC-MARLと命名した。
REC-MARLは、無線ネットワークにおけるリアルタイムアクセス制御や分散電力制御など、様々な重要な応用がある。
- 参考スコア(独自算出の注目度): 12.327745531583277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies a class of multi-agent reinforcement learning (MARL)
problems where the reward that an agent receives depends on the states of other
agents, but the next state only depends on the agent's own current state and
action. We name it REC-MARL standing for REward-Coupled Multi-Agent
Reinforcement Learning. REC-MARL has a range of important applications such as
real-time access control and distributed power control in wireless networks.
This paper presents a distributed and optimal policy gradient algorithm for
REC-MARL. The proposed algorithm is distributed in two aspects: (i) the learned
policy is a distributed policy that maps a local state of an agent to its local
action and (ii) the learning/training is distributed, during which each agent
updates its policy based on its own and neighbors' information. The learned
policy is provably optimal among all local policies and its regret bounds
depend on the dimension of local states and actions. This distinguishes our
result from most existing results on MARL, which often obtain stationary-point
policies. The experimental results of our algorithm for the real-time access
control and power control in wireless networks show that our policy
significantly outperforms the state-of-the-art algorithms and well-known
benchmarks.
- Abstract(参考訳): 本稿では,エージェントが受ける報酬が他のエージェントの状態に依存するマルチエージェント強化学習(MARL)のクラスについて検討する。
Reward-Coupled Multi-Agent Reinforcement LearningからREC-MARLと命名した。
REC-MARLは、無線ネットワークにおけるリアルタイムアクセス制御や分散電力制御など、様々な重要な応用がある。
本稿では,REC-MARLのための分散最適ポリシー勾配アルゴリズムを提案する。
提案アルゴリズムは,2つの側面に分散する。
(i)学習方針とは、エージェントのローカル状態をそのローカルアクションにマッピングする分散ポリシーである。
(ii)学習・訓練が分散され、その間に各エージェントは自身の情報と隣人の情報に基づいて方針を更新する。
学習された政策は、すべての地方政策の中で確実に最適であり、その後悔の限界は地方国家と行動の次元に依存する。
これは、定常点ポリシーをしばしば得るMARLの既存の結果との違いである。
無線ネットワークにおけるリアルタイムアクセス制御と電力制御のためのアルゴリズムの実験結果から,本手法は最先端のアルゴリズムやよく知られたベンチマークを大きく上回っていることがわかった。
関連論文リスト
- PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods [0.0]
本稿では,分散強化学習フレームワークとポリシ勾配アルゴリズムを組み合わせた新しいアルゴリズムPG-Rainbowを紹介する。
政策ネットワークに報酬分配情報を統合することで、政策エージェントが強化された能力を取得するという経験的結果を示す。
論文 参考訳(メタデータ) (2024-07-18T04:18:52Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - Regularize! Don't Mix: Multi-Agent Reinforcement Learning without
Explicit Centralized Structures [8.883885464358737]
Em Multi-Agent Regularized Q-learning (MARQ) と呼ばれる明示的な協調構造を学習するのではなく、正規化を用いたマルチエージェント強化学習を提案する。
提案アルゴリズムは,複数のベンチマークマルチエージェント環境において評価され,MARQが複数のベースラインや最先端のアルゴリズムより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-09-19T00:58:38Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。