論文の概要: Ensemble Value Functions for Efficient Exploration in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.03439v1
- Date: Tue, 7 Feb 2023 12:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 16:36:09.333999
- Title: Ensemble Value Functions for Efficient Exploration in Multi-Agent
Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における効率的探索のためのアンサンブル値関数
- Authors: Lukas Sch\"afer, Oliver Slumbers, Stephen McAleer, Yali Du, Stefano V.
Albrecht, David Mguni
- Abstract要約: マルチエージェント探索(EMAX)のためのアンサンブル値関数を提案する。
EMAXは各エージェントの値関数のアンサンブルを訓練し、探索と非定常性の鍵となる課題に対処する。
- 参考スコア(独自算出の注目度): 15.043152854800539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative multi-agent reinforcement learning (MARL) requires agents to
explore to learn to cooperate. Existing value-based MARL algorithms commonly
rely on random exploration, such as $\epsilon$-greedy, which is inefficient in
discovering multi-agent cooperation. Additionally, the environment in MARL
appears non-stationary to any individual agent due to the simultaneous training
of other agents, leading to highly variant and thus unstable optimisation
signals. In this work, we propose ensemble value functions for multi-agent
exploration (EMAX), a general framework to extend any value-based MARL
algorithm. EMAX trains ensembles of value functions for each agent to address
the key challenges of exploration and non-stationarity: (1) The uncertainty of
value estimates across the ensemble is used in a UCB policy to guide the
exploration of agents to parts of the environment which require cooperation.
(2) Average value estimates across the ensemble serve as target values. These
targets exhibit lower variance compared to commonly applied target networks and
we show that they lead to more stable gradients during the optimisation. We
instantiate three value-based MARL algorithms with EMAX, independent DQN, VDN
and QMIX, and evaluate them in 21 tasks across four environments. Using
ensembles of five value functions, EMAX improves sample efficiency and final
evaluation returns of these algorithms by 54%, 55%, and 844%, respectively,
averaged all 21 tasks.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は、エージェントが協力することを学ぶ必要がある。
既存の値ベースのMARLアルゴリズムは、例えば$\epsilon$-greedyのようなランダムな探索に依存している。
さらに、MARLの環境は他のエージェントの同時訓練により、個々のエージェントに非定常的に現れ、高度に変動し不安定な最適化信号をもたらす。
本稿では,任意の値に基づくmarlアルゴリズムを拡張する汎用フレームワークであるマルチエージェント探索(emax)のためのアンサンブル値関数を提案する。
EMAXは、各エージェントに対する価値関数のアンサンブルを訓練し、探索と非定常性の鍵となる課題に対処する: 1) アンサンブル全体における価値推定の不確実性は、エージェントの探索を協調を必要とする環境の一部に導くためのUCBポリシーで使用される。
2)アンサンブル全体の平均値の推定値がターゲット値となる。
これらのターゲットは,一般のターゲットネットワークに比べてばらつきが低く,最適化時により安定した勾配を示す。
EMAX,独立DQN,VDN,QMIXの3つの値ベースMARLアルゴリズムをインスタンス化し、4つの環境における21のタスクで評価する。
5つの値関数のアンサンブルを使用して、EMAXは、21タスクの平均で、これらのアルゴリズムのサンプル効率と最終的な評価リターンを54%、55%、844%改善する。
関連論文リスト
- BOtied: Multi-objective Bayesian optimization with tied multivariate
ranks [49.85896045032822]
非支配解と最高多変量階との自然な関係を示し、これは合同累積分布関数(CDF)の最外層線と一致する。
我々はCDFインジケータに基づくBOtiedと呼ばれる取得関数を提案する。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z) - Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent
Reinforcement Learning [24.05715475457959]
協調型マルチエージェント強化学習(MARL)における効率的な探索の重要性
本研究では,逐次的行動計算の考え方に基づく協調探索を効果的に促進する探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T02:05:16Z) - Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation [28.71585436726336]
マルチエージェント強化学習(MARL)では,この問題の解決に有望な結果が得られた。
目標条件付き階層型強化学習(HRL)は、この課題に取り組むための有望な方向性を提供する。
マルチエージェントナビゲーションタスクのためのグラフベースのゴール条件階層手法であるMAGE-Xを提案する。
論文 参考訳(メタデータ) (2023-02-08T14:44:21Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。