論文の概要: Maximum Entropy Heterogeneous-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.10715v4
- Date: Fri, 8 Mar 2024 12:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 23:35:33.677000
- Title: Maximum Entropy Heterogeneous-Agent Reinforcement Learning
- Title(参考訳): 最大エントロピー不均質エージェント強化学習
- Authors: Jiarong Liu, Yifan Zhong, Siyi Hu, Haobo Fu, Qiang Fu, Xiaojun Chang,
Yaodong Yang
- Abstract要約: 近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
本稿では,これらの問題を解決するために,アンフィストチャスティックな政策を学習するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
- 参考スコア(独自算出の注目度): 47.652866966384586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) has been shown effective for
cooperative games in recent years. However, existing state-of-the-art methods
face challenges related to sample complexity, training instability, and the
risk of converging to a suboptimal Nash Equilibrium. In this paper, we propose
a unified framework for learning \emph{stochastic} policies to resolve these
issues. We embed cooperative MARL problems into probabilistic graphical models,
from which we derive the maximum entropy (MaxEnt) objective for MARL. Based on
the MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC)
algorithm. Theoretically, we prove the monotonic improvement and convergence to
quantal response equilibrium (QRE) properties of HASAC. Furthermore, we
generalize a unified template for MaxEnt algorithmic design named Maximum
Entropy Heterogeneous-Agent Mirror Learning (MEHAML), which provides any
induced method with the same guarantees as HASAC. We evaluate HASAC on six
benchmarks: Bi-DexHands, Multi-Agent MuJoCo, StarCraft Multi-Agent Challenge,
Google Research Football, Multi-Agent Particle Environment, and Light Aircraft
Game. Results show that HASAC consistently outperforms strong baselines,
exhibiting better sample efficiency, robustness, and sufficient exploration.
- Abstract(参考訳): 近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
しかしながら、既存の最先端の手法は、サンプルの複雑さ、トレーニングの不安定性、および準最適ナッシュ平衡への収束のリスクに関する課題に直面している。
本稿では,これらの問題を解決するために,emph{stochastic}ポリシーを学習するための統一フレームワークを提案する。
我々は,MARLの最大エントロピー(MaxEnt)目標を導出する確率的グラフィカルモデルに協調的なMARL問題を埋め込む。
我々は,maxentフレームワークに基づき,ヘテロジニアスエージェントソフトアクタ-クリティック (hasac) アルゴリズムを提案する。
理論的には、HASACの量子応答平衡(QRE)特性に対する単調な改善と収束を証明する。
さらに,最大エントロピー不均質ミラーラーニング (MEHAML) というアルゴリズム設計のための統一テンプレートを一般化し,HASACと同等の保証を提供する。
我々は, Bi-DexHands, Multi-Agent MuJoCo, StarCraft Multi-Agent Challenge, Google Research Football, Multi-Agent Particle Environment, Light Aircraft Gameの6つのベンチマークでHASACを評価した。
結果,hasacは強いベースラインを一貫して上回っており,サンプル効率,堅牢性,十分な探索性を示している。
関連論文リスト
- Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
マルチステップ優先最適化(MPO)は、自然なアクター批判フレームワークciteprakhlin2013online,joulani17a上に構築されている。
我々はOMPOが$mathcalO(epsilon-1)$ポリシー更新を必要とし、$epsilon$-approximate Nash平衡に収束することを示した。
また,本手法がマルチターン会話データセットと数理推論データセットに与える影響についても検証した。
論文 参考訳(メタデータ) (2025-02-18T09:33:48Z) - Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning [37.80275600302316]
分布的にロバストなマルコフゲーム (RMG) は、MARLのロバスト性を高めるために提案されている。
悪名高いオープンな2つの課題は、不確実性の集合の定式化と、対応するRMGがマルチ緊急の呪いを克服できるかどうかである。
本研究では,行動経済学に着想を得た自然なRMGのクラスを提案し,各エージェントの不確実性セットは,環境と他のエージェントの統合行動の両方によって形成される。
論文 参考訳(メタデータ) (2024-09-30T08:09:41Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Robust Multi-Agent Reinforcement Learning with State Uncertainty [17.916400875478377]
本研究における状態不確実性を考慮したMARLの問題点について検討する。
このような平衡を求めるために,頑健なマルチエージェントQ-ラーニングアルゴリズムを提案する。
実験の結果,提案したRMAQアルゴリズムは最適値関数に収束することがわかった。
論文 参考訳(メタデータ) (2023-07-30T12:31:42Z) - Heterogeneous-Agent Reinforcement Learning [16.796016254366524]
ヘテロジニアス強化学習(HARL)アルゴリズムを提案する。
本研究の中心は,マルチエージェント・アドバンテージ分解補題と逐次更新方式である。
HAMLから派生した全てのアルゴリズムは本質的に、Nash Equilibriumへのジョイントリターンと収束の単調な改善を享受することを証明する。
論文 参考訳(メタデータ) (2023-04-19T05:08:02Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。