論文の概要: Distributed Policy Gradient with Variance Reduction in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.12961v1
- Date: Thu, 25 Nov 2021 08:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 12:17:57.761345
- Title: Distributed Policy Gradient with Variance Reduction in Multi-Agent
Reinforcement Learning
- Title(参考訳): 多エージェント強化学習における分散ポリシの分散化
- Authors: Xiaoxiao Zhao, Jinlong Lei, Li Li
- Abstract要約: 本稿では,協調型マルチエージェント強化学習(MARL)における分散ポリシ勾配について検討する。
通信ネットワーク上のエージェントは、すべてのエージェントのローカルリターンの平均を最大化するための最適なポリシーを見つけることを目的としている。
- 参考スコア(独自算出の注目度): 7.4447396913959185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies a distributed policy gradient in collaborative multi-agent
reinforcement learning (MARL), where agents over a communication network aim to
find the optimal policy to maximize the average of all agents' local returns.
Due to the non-concave performance function of policy gradient, the existing
distributed stochastic optimization methods for convex problems cannot be
directly used for policy gradient in MARL. This paper proposes a distributed
policy gradient with variance reduction and gradient tracking to address the
high variances of policy gradient, and utilizes importance weight to solve the
non-stationary problem in the sampling process. We then provide an upper bound
on the mean-squared stationary gap, which depends on the number of iterations,
the mini-batch size, the epoch size, the problem parameters, and the network
topology. We further establish the sample and communication complexity to
obtain an $\epsilon$-approximate stationary point. Numerical experiments on the
control problem in MARL are performed to validate the effectiveness of the
proposed algorithm.
- Abstract(参考訳): 本稿では、協調型マルチエージェント強化学習(MARL)における分散ポリシー勾配について検討し、コミュニケーションネットワーク上のエージェントが、すべてのエージェントのローカルリターンの平均を最大化するための最適なポリシーを見つけることを目的とする。
ポリシー勾配の非コンケーブ性能関数のため、既存の凸問題に対する分散確率最適化法は、marlのポリシー勾配に直接使用することはできない。
本稿では,政策勾配の高分散に対処するために分散低減と勾配追従を伴う分散ポリシー勾配を提案し,サンプリング過程における非定常問題を解決するために重要度重みを用いる。
次に、平均二乗定常ギャップの上限を与え、イテレーション数、ミニバッチサイズ、エポックサイズ、問題パラメータ、ネットワークトポロジーに依存する。
さらにサンプルと通信の複雑さを確立して、$\epsilon$-approximate stationary pointを得る。
MARLにおける制御問題に関する数値実験を行い,提案アルゴリズムの有効性を検証した。
関連論文リスト
- Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。
勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。
その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文 参考訳(メタデータ) (2024-09-25T17:56:02Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Monte Carlo Policy Gradient Method for Binary Optimization [3.742634130733923]
パラメータ化されたポリシー分布に従って二項解をサンプリングする新しい確率モデルを開発する。
離散空間におけるコヒーレント探索には、並列マルコフ・チェイン・モンテカルロ法(MCMC)を用いる。
政策勾配法を期待する定常点への収束性を確立する。
論文 参考訳(メタデータ) (2023-07-03T07:01:42Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。