論文の概要: Multi-Agent MDP Homomorphic Networks
- arxiv url: http://arxiv.org/abs/2110.04495v1
- Date: Sat, 9 Oct 2021 07:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:41:47.294194
- Title: Multi-Agent MDP Homomorphic Networks
- Title(参考訳): マルチエージェントMDP同型ネットワーク
- Authors: Elise van der Pol, Herke van Hoof, Frans A. Oliehoek, Max Welling
- Abstract要約: 協調型マルチエージェントシステムでは、エージェントの異なる構成とそれらの局所的な観察の間に複雑な対称性が生じる。
単エージェント強化学習における既存の対称性の研究は、完全に集中した環境にのみ一般化できる。
本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるマルチエージェントMDPホモモルフィックネットワークを提案する。
- 参考スコア(独自算出の注目度): 100.74260120972863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Multi-Agent MDP Homomorphic Networks, a class of
networks that allows distributed execution using only local information, yet is
able to share experience between global symmetries in the joint state-action
space of cooperative multi-agent systems. In cooperative multi-agent systems,
complex symmetries arise between different configurations of the agents and
their local observations. For example, consider a group of agents navigating:
rotating the state globally results in a permutation of the optimal joint
policy. Existing work on symmetries in single agent reinforcement learning can
only be generalized to the fully centralized setting, because such approaches
rely on the global symmetry in the full state-action spaces, and these can
result in correspondences across agents. To encode such symmetries while still
allowing distributed execution we propose a factorization that decomposes
global symmetries into local transformations. Our proposed factorization allows
for distributing the computation that enforces global symmetries over local
agents and local interactions. We introduce a multi-agent equivariant policy
network based on this factorization. We show empirically on symmetric
multi-agent problems that distributed execution of globally symmetric policies
improves data efficiency compared to non-equivariant baselines.
- Abstract(参考訳): 本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるMulti-Agent MDP準同型ネットワークについて紹介する。
協調マルチエージェントシステムでは、複雑な対称性がエージェントの異なる構成と局所的な観察の間に生じる。
例えば、ナビゲートするエージェントのグループを考える: 状態をグローバルに回転させることで、最適なジョイントポリシーの順列が得られる。
単一エージェント強化学習における既存の対称性の研究は、すべての状態-作用空間における大域的対称性に依存するため、完全集中的な設定にしか一般化できない。
このような対称性を分散実行を許容しながら符号化するために,グローバル対称性を局所変換に分解する因子化を提案する。
提案する因子化により,局所エージェントや局所的相互作用に対してグローバル対称性を強制する計算を分散することができる。
この因子化に基づくマルチエージェント同変ポリシーネットワークを導入する。
我々は、グローバルな対称ポリシーの分散実行により、非等価なベースラインに比べてデータ効率が向上する、対称多エージェント問題に実証的に言及する。
関連論文リスト
- Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning [49.65958529941962]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Policy Evaluation in Decentralized POMDPs with Belief Sharing [39.550233049869036]
エージェントが直接環境状態を観察しないような協調的政策評価タスクについて検討する。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
論文 参考訳(メタデータ) (2023-02-08T15:54:15Z) - Independent Natural Policy Gradient Methods for Potential Games:
Finite-time Global Convergence with Entropy Regularization [28.401280095467015]
本研究では,独立エントロピー規則化自然ポリシー勾配法(NPG)の有限時間収束について検討する。
提案手法は, 作用空間の大きさに依存しないサブ線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2022-04-12T01:34:02Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Calibration of Shared Equilibria in General Sum Partially Observable
Markov Games [15.572157454411533]
我々は、異なるタイプのエージェントが単一のポリシーネットワークを共有する、一般的な可観測マルコフゲームを考える。
本稿は,そのようなエージェントが到達した平衡を形式的に理解すること,および,そのような平衡の創発的な現象を現実のターゲットに合わせることを目的としている。
論文 参考訳(メタデータ) (2020-06-23T15:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。