論文の概要: Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to
Cooperative MARL
- arxiv url: http://arxiv.org/abs/2208.01682v1
- Date: Tue, 2 Aug 2022 18:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 14:06:34.376226
- Title: Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to
Cooperative MARL
- Title(参考訳): 不均一エージェントミラーラーニング:協調的marlに対する解の連続体
- Authors: Jakub Grudzien Kuba, Xidong Feng, Shiyao Ding, Hao Dong, Jun Wang,
Yaodong Yang
- Abstract要約: Heterogeneous-Agent Mirror Learning (HAML)は、MARLアルゴリズム設計のための一般的なテンプレートを提供する。
HAMLテンプレートから得られたアルゴリズムが,関節報酬の単調改善の望ましい特性を満たすことを証明した。
本稿では,2つの有名なRLアルゴリズムであるHAA2C(A2C)とHADDPG(DDPG)のHAML拡張を提案する。
- 参考スコア(独自算出の注目度): 10.681450002239355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The necessity for cooperation among intelligent machines has popularised
cooperative multi-agent reinforcement learning (MARL) in the artificial
intelligence (AI) research community. However, many research endeavors have
been focused on developing practical MARL algorithms whose effectiveness has
been studied only empirically, thereby lacking theoretical guarantees. As
recent studies have revealed, MARL methods often achieve performance that is
unstable in terms of reward monotonicity or suboptimal at convergence. To
resolve these issues, in this paper, we introduce a novel framework named
Heterogeneous-Agent Mirror Learning (HAML) that provides a general template for
MARL algorithmic designs. We prove that algorithms derived from the HAML
template satisfy the desired properties of the monotonic improvement of the
joint reward and the convergence to Nash equilibrium. We verify the
practicality of HAML by proving that the current state-of-the-art cooperative
MARL algorithms, HATRPO and HAPPO, are in fact HAML instances. Next, as a
natural outcome of our theory, we propose HAML extensions of two well-known RL
algorithms, HAA2C (for A2C) and HADDPG (for DDPG), and demonstrate their
effectiveness against strong baselines on StarCraftII and Multi-Agent MuJoCo
tasks.
- Abstract(参考訳): 知的機械間の協調の必要性は,人工知能(AI)研究コミュニティにおいて,協調型マルチエージェント強化学習(MARL)の普及に寄与している。
しかし、多くの研究成果は、実験的にのみ研究され、理論的保証が欠如している実用的なMARLアルゴリズムの開発に焦点が当てられている。
最近の研究が示すように、マール法はしばしば、報酬単調性や収束時の準最適性の観点から不安定な性能を達成する。
これらの問題を解決するため,本論文では,marlアルゴリズム設計のための汎用テンプレートを提供する,ヘテロジニアスエージェントミラーラーニング(haml)という新しいフレームワークを提案する。
HAMLテンプレートから派生したアルゴリズムは,結合報酬の単調改善とナッシュ平衡への収束の望ましい特性を満たすことを証明した。
我々は,現在最先端の協調型MARLアルゴリズムであるHATRPOとHAPPOが実際にHAMLインスタンスであることを証明し,HAMLの実用性を検証する。
次に、本理論の自然な結果として、2つの有名なRLアルゴリズムであるHAA2C(A2C)とHADDPG(DDPG)のHAML拡張を提案し、StarCraftIIとMulti-Agent MuJoCoタスクの強いベースラインに対する効果を示す。
関連論文リスト
- Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z) - Maximum Entropy Heterogeneous-Agent Reinforcement Learning [47.652866966384586]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
本稿では,これらの問題を解決するために,アンフィストチャスティックな政策を学習するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
論文 参考訳(メタデータ) (2023-06-19T06:22:02Z) - Heterogeneous-Agent Reinforcement Learning [16.796016254366524]
ヘテロジニアス強化学習(HARL)アルゴリズムを提案する。
本研究の中心は,マルチエージェント・アドバンテージ分解補題と逐次更新方式である。
HAMLから派生した全てのアルゴリズムは本質的に、Nash Equilibriumへのジョイントリターンと収束の単調な改善を享受することを証明する。
論文 参考訳(メタデータ) (2023-04-19T05:08:02Z) - Certified Policy Smoothing for Cooperative Multi-Agent Reinforcement
Learning [17.957644784944755]
保証された認証境界を持つ動作を決定するために,c-MARLの新たな認証手法を提案する。
我々は、我々の認証境界が最先端のRL認証ソリューションよりもはるかに厳密であることを実証的に示す。
本手法は,すべてのモデルと環境に対して有意義なロバスト性を実現する。
論文 参考訳(メタデータ) (2022-12-22T14:36:27Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。