論文の概要: Variational Policy Propagation for Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.08883v4
- Date: Sat, 29 Jan 2022 11:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 23:55:21.682716
- Title: Variational Policy Propagation for Multi-agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のための変分政策伝播
- Authors: Chao Qu, Hui Li, Chang Liu, Junwu Xiong, James Zhang, Wei Chu,
Weiqiang Wang, Yuan Qi, Le Song
- Abstract要約: 本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
- 参考スコア(独自算出の注目度): 68.26579560607597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a \emph{collaborative} multi-agent reinforcement learning
algorithm named variational policy propagation (VPP) to learn a \emph{joint}
policy through the interactions over agents. We prove that the joint policy is
a Markov Random Field under some mild conditions, which in turn reduces the
policy space effectively. We integrate the variational inference as special
differentiable layers in policy such that the actions can be efficiently
sampled from the Markov Random Field and the overall policy is differentiable.
We evaluate our algorithm on several large scale challenging tasks and
demonstrate that it outperforms previous state-of-the-arts.
- Abstract(参考訳): 本稿では,エージェント間の相互作用を通じて,変化政策伝搬 (VPP) と呼ばれる多エージェント強化学習アルゴリズムを提案する。
共同政策がいくつかの穏やかな条件下でマルコフ確率場であることを証明し、それによって政策空間を効果的に減少させる。
我々は,行動がマルコフ確率場から効率的にサンプリングされ,全体の方針が微分可能となるように,変分推論をポリシーの特殊微分可能層として統合する。
提案アルゴリズムは,いくつかの大規模課題に対して評価し,従来の最先端タスクよりも優れていることを示す。
関連論文リスト
- OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。