論文の概要: Maximum Entropy Heterogeneous-Agent Mirror Learning
- arxiv url: http://arxiv.org/abs/2306.10715v1
- Date: Mon, 19 Jun 2023 06:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 19:07:12.505377
- Title: Maximum Entropy Heterogeneous-Agent Mirror Learning
- Title(参考訳): 最大エントロピー不均質ミラー学習
- Authors: Jiarong Liu, Yifan Zhong, Siyi Hu, Haobo Fu, Qiang Fu, Xiaojun Chang,
Yaodong Yang
- Abstract要約: 近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
本稿では,最大エントロピー原理を利用して最大エントロピーMARLアクター批判アルゴリズムを設計する,Entropy Heterogeneous-Agent Mirror Learning (MEHAML) という理論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.63999668191461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) has been shown effective for
cooperative games in recent years. However, existing state-of-the-art methods
face challenges related to sample inefficiency, brittleness regarding
hyperparameters, and the risk of converging to a suboptimal Nash Equilibrium.
To resolve these issues, in this paper, we propose a novel theoretical
framework, named Maximum Entropy Heterogeneous-Agent Mirror Learning (MEHAML),
that leverages the maximum entropy principle to design maximum entropy MARL
actor-critic algorithms. We prove that algorithms derived from the MEHAML
framework enjoy the desired properties of the monotonic improvement of the
joint maximum entropy objective and the convergence to quantal response
equilibrium (QRE). The practicality of MEHAML is demonstrated by developing a
MEHAML extension of the widely used RL algorithm, HASAC (for soft
actor-critic), which shows significant improvements in exploration and
robustness on three challenging benchmarks: Multi-Agent MuJoCo, StarCraftII,
and Google Research Football. Our results show that HASAC outperforms strong
baseline methods such as HATD3, HAPPO, QMIX, and MAPPO, thereby establishing
the new state of the art. See our project page at
https://sites.google.com/view/mehaml.
- Abstract(参考訳): 近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
しかしながら、既存の最先端の手法では、サンプルの非効率性、ハイパーパラメータに関する脆性、および準最適ナッシュ平衡への収束の危険性に関する課題に直面している。
本稿では,この問題を解決するために,最大エントロピー不均質エージェントミラー学習(mehaml)という,最大エントロピー原理を活用し,最大エントロピーマールアクタ-クリティックアルゴリズムを設計する新しい理論的枠組みを提案する。
我々は,MEHAMLフレームワークから派生したアルゴリズムが,結合最大エントロピー目標の単調改善と量子応答平衡(QRE)への収束の望ましい特性を享受できることを証明した。
MEHAMLの実用性は、広く使われているRLアルゴリズムであるHASAC(ソフトアクター・クリティカル)のMEHAML拡張を開発することで実証され、Multi-Agent MuJoCo、StarCraftII、Google Research Footballの3つの挑戦的ベンチマークにおいて、探索と堅牢性に大きな改善が示されている。
以上の結果から,HASACはHATD3,HAPPO,QMIX,MAPPOといった強力なベースライン手法よりも優れており,新たな技術が確立された。
プロジェクトページはhttps://sites.google.com/view/mehaml。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning [37.80275600302316]
分布的にロバストなマルコフゲーム (RMG) は、MARLのロバスト性を高めるために提案されている。
RMGがマルチ緊急の呪いから逃れられるかどうか。
これは、RMGに対するマルチ緊急の呪いを破る最初のアルゴリズムである。
論文 参考訳(メタデータ) (2024-09-30T08:09:41Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z) - Heterogeneous-Agent Reinforcement Learning [16.796016254366524]
ヘテロジニアス強化学習(HARL)アルゴリズムを提案する。
本研究の中心は,マルチエージェント・アドバンテージ分解補題と逐次更新方式である。
HAMLから派生した全てのアルゴリズムは本質的に、Nash Equilibriumへのジョイントリターンと収束の単調な改善を享受することを証明する。
論文 参考訳(メタデータ) (2023-04-19T05:08:02Z) - Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to
Cooperative MARL [10.681450002239355]
Heterogeneous-Agent Mirror Learning (HAML)は、MARLアルゴリズム設計のための一般的なテンプレートを提供する。
HAMLテンプレートから得られたアルゴリズムが,関節報酬の単調改善の望ましい特性を満たすことを証明した。
本稿では,2つの有名なRLアルゴリズムであるHAA2C(A2C)とHADDPG(DDPG)のHAML拡張を提案する。
論文 参考訳(メタデータ) (2022-08-02T18:16:42Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。