論文の概要: MDPGT: Momentum-based Decentralized Policy Gradient Tracking
- arxiv url: http://arxiv.org/abs/2112.02813v1
- Date: Mon, 6 Dec 2021 06:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 05:53:30.580348
- Title: MDPGT: Momentum-based Decentralized Policy Gradient Tracking
- Title(参考訳): mdpgt:運動量に基づく分散政策勾配追跡
- Authors: Zhanhong Jiang, Xian Yeow Lee, Sin Yong Tan, Kai Liang Tan, Aditya
Balu, Young M. Lee, Chinmay Hegde, Soumik Sarkar
- Abstract要約: マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
- 参考スコア(独自算出の注目度): 29.22173174168708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel policy gradient method for multi-agent reinforcement
learning, which leverages two different variance-reduction techniques and does
not require large batches over iterations. Specifically, we propose a
momentum-based decentralized policy gradient tracking (MDPGT) where a new
momentum-based variance reduction technique is used to approximate the local
policy gradient surrogate with importance sampling, and an intermediate
parameter is adopted to track two consecutive policy gradient surrogates.
Moreover, MDPGT provably achieves the best available sample complexity of
$\mathcal{O}(N^{-1}\epsilon^{-3})$ for converging to an $\epsilon$-stationary
point of the global average of $N$ local performance functions (possibly
nonconcave). This outperforms the state-of-the-art sample complexity in
decentralized model-free reinforcement learning, and when initialized with a
single trajectory, the sample complexity matches those obtained by the existing
decentralized policy gradient methods. We further validate the theoretical
claim for the Gaussian policy function. When the required error tolerance
$\epsilon$ is small enough, MDPGT leads to a linear speed up, which has been
previously established in decentralized stochastic optimization, but not for
reinforcement learning. Lastly, we provide empirical results on a multi-agent
reinforcement learning benchmark environment to support our theoretical
findings.
- Abstract(参考訳): 本稿では,2つの異なる分散還元手法を活用するマルチエージェント強化学習のためのポリシー勾配法を提案する。
具体的には, 局所的政策勾配を重要サンプリングで近似するために, 新たな運動量に基づく分散低減手法を用いた運動量ベースの分散政策勾配追跡 (mdpgt) を提案し, 中間パラメータを用いて2つの連続した政策勾配を追跡する。
さらに、mdpgtは、グローバル平均n$ローカルパフォーマンス関数(おそらく非コンケーブ)の$\epsilon$静止点に収束するための$\mathcal{o}(n^{-1}\epsilon^{-3})$の最適なサンプル複雑性を達成することができる。
これにより、分散モデルフリーの強化学習における最先端のサンプル複雑性を上回り、単一の軌道で初期化すると、サンプル複雑性は既存の分散ポリシー勾配法によって得られたものと一致する。
さらにガウス政策関数の理論的主張についても検証する。
必要となるエラートレランス$\epsilon$が十分小さい場合、MDPGTは線形スピードアップにつながる。
最後に,マルチエージェント強化学習ベンチマーク環境において実験結果を提供し,理論的な知見を裏付ける。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Adaptive Policy Learning to Additional Tasks [3.43814540650436]
本稿では,事前訓練されたポリシーを調整し,本来のタスクを変更することなく追加タスクに適応するためのポリシー学習手法を開発する。
本稿では,適応政策グラディエント (APG) という手法を提案する。これはベルマンの最適性の原理と,収束率を改善するための政策勾配アプローチを組み合わせたものである。
論文 参考訳(メタデータ) (2023-05-24T14:31:11Z) - Policy Mirror Descent Inherently Explores Action Space [10.772560347950053]
1/epsilon2)$tildemathcalO($tildemathcalO)を,探索戦略を使わずに,オンラインポリシグラデーションメソッドのサンプル複雑性を初めて確立しました。
新しいポリシー勾配法は、最適なポリシーを探す際に、潜在的にリスクの高い行動に繰り返しコミットするのを防ぐことができる。
論文 参考訳(メタデータ) (2023-03-08T05:19:08Z) - Distributed Policy Gradient with Variance Reduction in Multi-Agent
Reinforcement Learning [7.4447396913959185]
本稿では,協調型マルチエージェント強化学習(MARL)における分散ポリシ勾配について検討する。
通信ネットワーク上のエージェントは、すべてのエージェントのローカルリターンの平均を最大化するための最適なポリシーを見つけることを目的としている。
論文 参考訳(メタデータ) (2021-11-25T08:07:30Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。