論文の概要: Heterogeneous-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.09870v1
- Date: Wed, 19 Apr 2023 05:08:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 15:35:13.186918
- Title: Heterogeneous-Agent Reinforcement Learning
- Title(参考訳): 不均一エージェント強化学習
- Authors: Yifan Zhong, Jakub Grudzien Kuba, Siyi Hu, Jiaming Ji, and Yaodong
Yang
- Abstract要約: ヘテロジニアス強化学習(HARL)アルゴリズムを提案する。
本研究の中心は,マルチエージェント・アドバンテージ分解補題と逐次更新方式である。
HAMLから派生した全てのアルゴリズムが、本質的にはNash Equilibriumへのジョイント報酬と収束の単調な改善を享受していることを証明する。
- 参考スコア(独自算出の注目度): 6.999600188998445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The necessity for cooperation among intelligent machines has popularised
cooperative multi-agent reinforcement learning (MARL) in AI research. However,
many research endeavours heavily rely on parameter sharing among agents, which
confines them to only homogeneous-agent setting and leads to training
instability and lack of convergence guarantees. To achieve effective
cooperation in the general heterogeneous-agent setting, we propose
Heterogeneous-Agent Reinforcement Learning (HARL) algorithms that resolve the
aforementioned issues. Central to our findings are the multi-agent advantage
decomposition lemma and the sequential update scheme. Based on these, we
develop the provably correct Heterogeneous-Agent Trust Region Learning (HATRL)
that is free of parameter-sharing constraint, and derive HATRPO and HAPPO by
tractable approximations. Furthermore, we discover a novel framework named
Heterogeneous-Agent Mirror Learning (HAML), which strengthens theoretical
guarantees for HATRPO and HAPPO and provides a general template for cooperative
MARL algorithmic designs. We prove that all algorithms derived from HAML
inherently enjoy monotonic improvement of joint reward and convergence to Nash
Equilibrium. As its natural outcome, HAML validates more novel algorithms in
addition to HATRPO and HAPPO, including HAA2C, HADDPG, and HATD3, which
consistently outperform their existing MA-counterparts. We comprehensively test
HARL algorithms on six challenging benchmarks and demonstrate their superior
effectiveness and stability for coordinating heterogeneous agents compared to
strong baselines such as MAPPO and QMIX.
- Abstract(参考訳): インテリジェントマシン間の協調の必要性は、AI研究において協調型マルチエージェント強化学習(MARL)を普及させた。
しかし、多くの研究はエージェント間のパラメータ共有に大きく依存しており、それらは均質なエージェントの設定のみに限定し、トレーニング不安定性と収束保証の欠如につながる。
一般ヘテロジニアスエージェント設定における効果的な協調を実現するために,上記の課題を解決するヘテロジニアスエージェント強化学習(harl)アルゴリズムを提案する。
本研究の中心は,マルチエージェント・アドバンテージ分解補題と逐次更新方式である。
そこで本研究では,パラメータ共有制約のない確率的正当信頼領域学習(HATRL)を開発し,抽出可能な近似によりHATRPOとHAPPOを導出する。
さらに、HATRPOとHAPPOの理論的保証を強化し、協調的なMARLアルゴリズム設計のための一般的なテンプレートを提供するHAML(Heterogeneous-Agent Mirror Learning)という新しいフレームワークを発見した。
HAMLから派生した全てのアルゴリズムが、本質的にはNash Equilibriumへのジョイント報酬と収束の単調な改善を享受していることを証明する。
自然な結果として、HAMLはHATRPOとHAPPOに加えて、HATRPO、HADDPG、HATD3などの新しいアルゴリズムを検証している。
我々は,HARLアルゴリズムを6つの挑戦的ベンチマークで総合的にテストし,MAPPOやQMIXのような強力なベースラインと比較して,異種エージェントのコーディネートに優れた効率と安定性を示す。
関連論文リスト
- Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - Heterogeneous Multi-Agent Reinforcement Learning via Mirror Descent
Policy Optimization [1.5501208213584152]
本稿では,MARL(Multi-Agent Reinforcement Learning)設定における課題を克服するため,ミラー・ダイスン法の拡張を提案する。
提案したヘテロジニアスミラーDescent Policy Optimization (HAMDPO) アルゴリズムは,マルチエージェント・アドバンスト分解補題を利用する。
我々は,Multi-Agent MuJoCoおよびStarCraftIIタスク上でHAMDPOを評価し,最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-13T10:18:10Z) - Maximum Entropy Heterogeneous-Agent Reinforcement Learning [47.652866966384586]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
本稿では,これらの問題を解決するために,アンフィストチャスティックな政策を学習するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
論文 参考訳(メタデータ) (2023-06-19T06:22:02Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to
Cooperative MARL [10.681450002239355]
Heterogeneous-Agent Mirror Learning (HAML)は、MARLアルゴリズム設計のための一般的なテンプレートを提供する。
HAMLテンプレートから得られたアルゴリズムが,関節報酬の単調改善の望ましい特性を満たすことを証明した。
本稿では,2つの有名なRLアルゴリズムであるHAA2C(A2C)とHADDPG(DDPG)のHAML拡張を提案する。
論文 参考訳(メタデータ) (2022-08-02T18:16:42Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。