論文の概要: Many Agent Reinforcement Learning Under Partial Observability
- arxiv url: http://arxiv.org/abs/2106.09825v1
- Date: Thu, 17 Jun 2021 21:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 14:14:51.156747
- Title: Many Agent Reinforcement Learning Under Partial Observability
- Title(参考訳): 部分観測可能性下におけるエージェント強化学習
- Authors: Keyang He, Prashant Doshi, Bikramjit Banerjee
- Abstract要約: 我々は,平均場法よりもエージェントネットワークの幅広いクラスにおいて,最適動作を学習できることを実証した。
我々は,平均場法よりもエージェントネットワークの幅広いクラスにおいて,最適動作を学習できることを実証した。
- 参考スコア(独自算出の注目度): 10.11960004698409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent renewed interest in multi-agent reinforcement learning (MARL) has
generated an impressive array of techniques that leverage deep reinforcement
learning, primarily actor-critic architectures, and can be applied to a limited
range of settings in terms of observability and communication. However, a
continuing limitation of much of this work is the curse of dimensionality when
it comes to representations based on joint actions, which grow exponentially
with the number of agents. In this paper, we squarely focus on this challenge
of scalability. We apply the key insight of action anonymity, which leads to
permutation invariance of joint actions, to two recently presented deep MARL
algorithms, MADDPG and IA2C, and compare these instantiations to another recent
technique that leverages action anonymity, viz., mean-field MARL. We show that
our instantiations can learn the optimal behavior in a broader class of agent
networks than the mean-field method, using a recently introduced pragmatic
domain.
- Abstract(参考訳): 近年,多エージェント強化学習 (MARL) への関心が高まっており, 深層強化学習, 主にアクター・クリティカルなアーキテクチャを活用し, 可観測性や通信性の観点から, 限られた範囲の環境に適用することができる。
しかし、この作品の大部分の継続的な制限は、エージェントの数に指数関数的に増加する共同作用に基づく表現に関して、次元の呪いである。
本稿では,このスケーラビリティの課題に焦点をあてる。
最近発表された2つの深いMARLアルゴリズムであるMADDPGとIA2Cに適用し、これらのインスタンス化をアクション匿名性(viz., mean-field MARL)を利用する別の手法と比較する。
提案手法は,最近導入された実用的ドメインを用いて,平均場法よりも幅広いエージェントネットワークで最適な動作を学習できることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Latent Interactive A2C for Improved RL in Open Many-Agent Systems [12.41853254173419]
対話的アドバンテージアクター批評家(IA2C)は、分散トレーニングと分散実行に従事している。
本稿では,エンコーダ・デコーダアーキテクチャを用いて隠れ状態と他のエージェントの動作の潜在表現を学習する潜時IA2Cを提案する。
2つのドメイン(それぞれ多くのエージェントが居住している)における実験により、潜伏型IA2Cは分散を低減し、より速く収束することにより、試料効率を著しく向上することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-09T04:03:40Z) - A Variational Approach to Mutual Information-Based Coordination for
Multi-Agent Reinforcement Learning [17.893310647034188]
マルチエージェント強化学習のための新しい相互情報フレームワークを提案する。
導出された下界を最大化するためにポリシーを適用することで,多エージェントアクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクティベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-01T12:21:30Z) - Beyond Rewards: a Hierarchical Perspective on Offline Multiagent
Behavioral Analysis [14.656957226255628]
本稿では,マルチエージェント領域における行動クラスタの発見のためのモデルに依存しない手法を提案する。
我々のフレームワークはエージェントの基盤となる学習アルゴリズムを前提とせず、潜伏状態やモデルへのアクセスを必要とせず、完全にオフラインで観察データを使って訓練することができる。
論文 参考訳(メタデータ) (2022-06-17T23:07:33Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。