論文の概要: Multi-Agent MDP Homomorphic Networks
- arxiv url: http://arxiv.org/abs/2110.04495v1
- Date: Sat, 9 Oct 2021 07:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:41:47.294194
- Title: Multi-Agent MDP Homomorphic Networks
- Title(参考訳): マルチエージェントMDP同型ネットワーク
- Authors: Elise van der Pol, Herke van Hoof, Frans A. Oliehoek, Max Welling
- Abstract要約: 協調型マルチエージェントシステムでは、エージェントの異なる構成とそれらの局所的な観察の間に複雑な対称性が生じる。
単エージェント強化学習における既存の対称性の研究は、完全に集中した環境にのみ一般化できる。
本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるマルチエージェントMDPホモモルフィックネットワークを提案する。
- 参考スコア(独自算出の注目度): 100.74260120972863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Multi-Agent MDP Homomorphic Networks, a class of
networks that allows distributed execution using only local information, yet is
able to share experience between global symmetries in the joint state-action
space of cooperative multi-agent systems. In cooperative multi-agent systems,
complex symmetries arise between different configurations of the agents and
their local observations. For example, consider a group of agents navigating:
rotating the state globally results in a permutation of the optimal joint
policy. Existing work on symmetries in single agent reinforcement learning can
only be generalized to the fully centralized setting, because such approaches
rely on the global symmetry in the full state-action spaces, and these can
result in correspondences across agents. To encode such symmetries while still
allowing distributed execution we propose a factorization that decomposes
global symmetries into local transformations. Our proposed factorization allows
for distributing the computation that enforces global symmetries over local
agents and local interactions. We introduce a multi-agent equivariant policy
network based on this factorization. We show empirically on symmetric
multi-agent problems that distributed execution of globally symmetric policies
improves data efficiency compared to non-equivariant baselines.
- Abstract(参考訳): 本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるMulti-Agent MDP準同型ネットワークについて紹介する。
協調マルチエージェントシステムでは、複雑な対称性がエージェントの異なる構成と局所的な観察の間に生じる。
例えば、ナビゲートするエージェントのグループを考える: 状態をグローバルに回転させることで、最適なジョイントポリシーの順列が得られる。
単一エージェント強化学習における既存の対称性の研究は、すべての状態-作用空間における大域的対称性に依存するため、完全集中的な設定にしか一般化できない。
このような対称性を分散実行を許容しながら符号化するために,グローバル対称性を局所変換に分解する因子化を提案する。
提案する因子化により,局所エージェントや局所的相互作用に対してグローバル対称性を強制する計算を分散することができる。
この因子化に基づくマルチエージェント同変ポリシーネットワークを導入する。
我々は、グローバルな対称ポリシーの分散実行により、非等価なベースラインに比べてデータ効率が向上する、対称多エージェント問題に実証的に言及する。
関連論文リスト
- Networked Communication for Mean-Field Games with Function Approximation and Empirical Mean-Field Estimation [59.01527054553122]
分散エージェントは、経験的システムの単一かつ非エポゾディックな実行から平均フィールドゲームにおける平衡を学ぶことができる。
既存の設定に関数近似を導入し,Munchausen Online Mirror Descent 方式で描画する。
また, エージェントが局所的な周辺地域に基づいて, グローバルな経験分布を推定できる新しいアルゴリズムも提供する。
論文 参考訳(メタデータ) (2024-08-21T13:32:46Z) - Improving Global Parameter-sharing in Physically Heterogeneous Multi-agent Reinforcement Learning with Unified Action Space [22.535906675532196]
マルチエージェントシステムでは、アクションセマンティクスはエージェントのアクションが他のエンティティに対して異なる影響を示す。
従来のマルチエージェント強化学習(MARL)アルゴリズムは、多種多様な異種エージェントにまたがる大域的パラメータ共有を適用する。
要件を満たすために統一行動空間(UAS)を導入する。
論文 参考訳(メタデータ) (2024-08-14T09:15:11Z) - Self-Supervised Detection of Perfect and Partial Input-Dependent Symmetries [11.54837584979607]
群の同値性は、群の対称性がデータで観測されたものと異なる場合、過度にモデルを制約することができる。
本稿では,ラベルを使わずに各入力の対称性のレベルを検出する手法を提案する。
我々のフレームワークは、連続分布と離散対称性分布の両方の異なる族に対応するのに十分である。
論文 参考訳(メタデータ) (2023-12-19T15:11:46Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Policy Evaluation in Decentralized POMDPs with Belief Sharing [39.550233049869036]
エージェントが直接環境状態を観察しないような協調的政策評価タスクについて検討する。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
論文 参考訳(メタデータ) (2023-02-08T15:54:15Z) - Independent Natural Policy Gradient Methods for Potential Games:
Finite-time Global Convergence with Entropy Regularization [28.401280095467015]
本研究では,独立エントロピー規則化自然ポリシー勾配法(NPG)の有限時間収束について検討する。
提案手法は, 作用空間の大きさに依存しないサブ線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2022-04-12T01:34:02Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。