論文の概要: Decentralized Deterministic Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.09745v1
- Date: Fri, 19 Feb 2021 05:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 20:59:01.579695
- Title: Decentralized Deterministic Multi-Agent Reinforcement Learning
- Title(参考訳): 分散決定論的多エージェント強化学習
- Authors: Antoine Grosnit, Desmond Cai, Laura Wynter
- Abstract要約: 連続的な行動空間における決定論的ポリシーを学習するための立証可能収束型非集中的アクタ-クリティックアルゴリズムを提供する。
この作業は、高次元のアクション空間における分散MARLの実現と、より広範なMARLの利用の道を開くのに役立つ。
- 参考スコア(独自算出の注目度): 2.3161207750846815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: [Zhang, ICML 2018] provided the first decentralized actor-critic algorithm
for multi-agent reinforcement learning (MARL) that offers convergence
guarantees. In that work, policies are stochastic and are defined on finite
action spaces. We extend those results to offer a provably-convergent
decentralized actor-critic algorithm for learning deterministic policies on
continuous action spaces. Deterministic policies are important in real-world
settings. To handle the lack of exploration inherent in deterministic policies,
we consider both off-policy and on-policy settings. We provide the expression
of a local deterministic policy gradient, decentralized deterministic
actor-critic algorithms and convergence guarantees for linearly-approximated
value functions. This work will help enable decentralized MARL in
high-dimensional action spaces and pave the way for more widespread use of
MARL.
- Abstract(参考訳): [Zhang, ICML 2018]は、収束保証を提供するマルチエージェント強化学習(MARL)のための、最初の分散型アクター批判アルゴリズムを提供する。
その仕事では、ポリシーは確率的であり、有限なアクション空間で定義される。
これらの結果を拡張して、連続的な行動空間上の決定論的な方針を学習するための確固たる収束型分散アクター批判アルゴリズムを提供する。
決定論的ポリシーは現実世界の設定において重要である。
決定論的政策に内在する探索の欠如に対処するため、オフポリシーとオンポリシーの設定の両方を考慮する。
局所決定論的政策勾配、分散決定論的アクタークリティカルアルゴリズム、線形近似値関数の収束保証の表現を提供する。
この作業は、高次元のアクション空間における分散MARLの実現と、より広範なMARLの利用の道を開くのに役立つ。
関連論文リスト
- Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。
我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。
本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:54:38Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Distributional Method for Risk Averse Reinforcement Learning [0.0]
リスク逆マルコフ決定過程における最適政策を学習するための分布法を提案する。
我々は、状態、行動、コストの連続的な観察を仮定し、動的リスク尺度を用いて政策のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-02-27T19:48:42Z) - Local Metric Learning for Off-Policy Evaluation in Contextual Bandits
with Continuous Actions [33.96450847451234]
連続的な行動空間を持つ文脈的帯域における決定論的ポリシーの非政治評価(OPE)のための局所カーネル計量学習について検討する。
本稿では,バイアスと分散の分析に基づく最適計量の解析解を提案する。
論文 参考訳(メタデータ) (2022-10-24T16:17:51Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。