論文の概要: Global Convergence of Localized Policy Iteration in Networked
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.17116v1
- Date: Wed, 30 Nov 2022 15:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:21:36.029320
- Title: Global Convergence of Localized Policy Iteration in Networked
Multi-Agent Reinforcement Learning
- Title(参考訳): ネットワーク型マルチエージェント強化学習における局所的政策反復のグローバル収束
- Authors: Yizhou Zhang, Guannan Qu, Pan Xu, Yiheng Lin, Zaiwei Chen, Adam
Wierman
- Abstract要約: エージェントが与えられたネットワーク上で相互作用するマルチエージェント強化学習(MARL)問題について検討する。
エージェントの目標は、エントロピー規則化された長期報酬の平均を協調的に最大化することである。
次元の呪いを克服し,コミュニケーションを減らすために,ローカル情報のみを用いて,グローバルに近い最適政策を確実に学習するローカルポリシーイテレーション(LPI)を提案する。
- 参考スコア(独自算出の注目度): 25.747559058350557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a multi-agent reinforcement learning (MARL) problem where the agents
interact over a given network. The goal of the agents is to cooperatively
maximize the average of their entropy-regularized long-term rewards. To
overcome the curse of dimensionality and to reduce communication, we propose a
Localized Policy Iteration (LPI) algorithm that provably learns a
near-globally-optimal policy using only local information. In particular, we
show that, despite restricting each agent's attention to only its $\kappa$-hop
neighborhood, the agents are able to learn a policy with an optimality gap that
decays polynomially in $\kappa$. In addition, we show the finite-sample
convergence of LPI to the global optimal policy, which explicitly captures the
trade-off between optimality and computational complexity in choosing $\kappa$.
Numerical simulations demonstrate the effectiveness of LPI.
- Abstract(参考訳): エージェントが与えられたネットワーク上で相互作用するマルチエージェント強化学習(MARL)問題について検討する。
エージェントの目標は、エントロピー規則化された長期報酬の平均を協調的に最大化することである。
次元の呪いを克服し,コミュニケーションを減らすために,ローカル情報のみを用いて,ほぼグローバルに近い最適政策を確実に学習するローカルポリシー反復(LPI)アルゴリズムを提案する。
特に、各エージェントの注意をその$\kappa$-hop近傍のみに制限しているにもかかわらず、エージェントは$\kappa$で多項式的に崩壊する最適性ギャップを持つポリシーを学ぶことができる。
さらに, LPI を大域的最適ポリシに有限サンプル収束させることで, 最適性と計算複雑性のトレードオフを明示的に捉えて$\kappa$を選択する。
数値シミュレーションはLPIの有効性を示す。
関連論文リスト
- Federated Reinforcement Learning with Constraint Heterogeneity [22.79217297480751]
制約不均一性を伴うフェデレーション強化学習(FedRL)問題について検討する。
我々はFedNPGが$tildeO(1/sqrtT)$レートでグローバル収束を実現し、FedPPOはディープニューラルネットワークを用いて複雑な学習タスクを効率的に解決することを示した。
論文 参考訳(メタデータ) (2024-05-06T07:44:50Z) - Efficient Reinforcement Learning for Global Decision Making in the Presence of Local Agents at Scale [5.3526997662068085]
本研究では,地域エージェントの存在下でのグローバル意思決定のための強化学習について検討する。
この環境では、状態空間のサイズのため、スケーラビリティは長年にわたる課題でした。
この学習されたポリシーは、サブサンプリングエージェントの数が増加するにつれて、$tildeO (1/sqrtk+epsilon_k,m)$の順序で最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-03-01T01:49:57Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。