論文の概要: Decentralized Policy Optimization
- arxiv url: http://arxiv.org/abs/2211.03032v1
- Date: Sun, 6 Nov 2022 05:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:56:12.657236
- Title: Decentralized Policy Optimization
- Title(参考訳): 分散型政策最適化
- Authors: Kefan Su and Zongqing Lu
- Abstract要約: 単調な改善と収束を保証する分散型アクター批判アルゴリズムであるテキスト分散ポリシー最適化(DPO)を提案する。
実験的に、DPOとIPPOを協調的な多エージェントタスクで比較し、離散的かつ連続的な行動空間、完全かつ部分的に観察可能な環境を網羅した。
- 参考スコア(独自算出の注目度): 21.59254848913971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of decentralized learning or independent learning in cooperative
multi-agent reinforcement learning has a history of decades. Recently empirical
studies show that independent PPO (IPPO) can obtain good performance, close to
or even better than the methods of centralized training with decentralized
execution, in several benchmarks. However, decentralized actor-critic with
convergence guarantee is still open. In this paper, we propose
\textit{decentralized policy optimization} (DPO), a decentralized actor-critic
algorithm with monotonic improvement and convergence guarantee. We derive a
novel decentralized surrogate for policy optimization such that the monotonic
improvement of joint policy can be guaranteed by each agent
\textit{independently} optimizing the surrogate. In practice, this
decentralized surrogate can be realized by two adaptive coefficients for policy
optimization at each agent. Empirically, we compare DPO with IPPO in a variety
of cooperative multi-agent tasks, covering discrete and continuous action
spaces, and fully and partially observable environments. The results show DPO
outperforms IPPO in most tasks, which can be the evidence for our theoretical
results.
- Abstract(参考訳): 協調型マルチエージェント強化学習における分散学習や独立学習の研究には数十年の歴史がある。
近年の実証研究では、独立系PPO(IPPO)が、分散的実行を伴う集中的な訓練方法に近いか、あるいはそれ以上に優れた性能が得られることをいくつかのベンチマークで示している。
しかし、収束保証付き分散型アクター批判はまだオープンである。
本稿では,単調な改善と収束保証を備えた分散型アクター批判型アルゴリズムである<textit{decentralized Policy Optimization} (DPO)を提案する。
我々は,共同政策の単調な改善が各エージェント \textit{independently} によって保証されるように,方針最適化のための新たな分散サーロゲートを導出する。
実際、この分散サーロゲートは、各エージェントのポリシー最適化のための2つの適応係数によって実現される。
実験的に、DPOとIPPOを協調的な多エージェントタスクで比較し、離散的かつ連続的なアクション空間、完全かつ部分的に観察可能な環境をカバーする。
その結果、DPOはIPPOよりも多くのタスクで優れており、これは我々の理論的結果の証拠となる。
関連論文リスト
- Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - More Centralized Training, Still Decentralized Execution: Multi-Agent
Conditional Policy Factorization [21.10461189367695]
協調型マルチエージェント強化学習(MARL)では、値分解とアクター・クリティカルを組み合わせたエージェントがポリシーを学ぶことができる。
エージェントは、集中的な訓練であっても、互いに独立していると一般的に考えられている。
我々は、より集中的な訓練を施すが、それでも分散実行が可能なマルチエージェント条件付きポリシー因数分解(MACPF)を提案する。
論文 参考訳(メタデータ) (2022-09-26T13:29:22Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Coordinated Proximal Policy Optimization [28.780862892562308]
Coordinated Proximal Policy Optimization (CoPPO) は、オリジナルの Proximal Policy Optimization (PPO) をマルチエージェント設定に拡張するアルゴリズムである。
我々は,理論的な共同目的を最適化する際の政策改善の単調性を証明する。
そこで我々は,CoPPOにおけるそのような目的がエージェント間の動的信用割り当てを達成し,エージェントポリシーの同時更新時の高分散問題を軽減することができると解釈した。
論文 参考訳(メタデータ) (2021-11-07T11:14:19Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。