論文の概要: Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.03439v6
- Date: Tue, 16 Apr 2024 16:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 03:00:14.915429
- Title: Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における効率的な探索のためのエンサンブル値関数
- Authors: Lukas Schäfer, Oliver Slumbers, Stephen McAleer, Yali Du, Stefano V. Albrecht, David Mguni,
- Abstract要約: EMAXは、値関数のアンサンブルで値ベースのMARLアルゴリズムをシームレスに拡張するフレームワークである。
EMAXは、UCB政策におけるアンサンブル全体の価値見積の不確実性を利用して探索を導く。
最適化中、EMAXは目標値をアンサンブルの平均値推定として計算する。
評価中、EMAXはアンサンブル全体で多数決後のアクションを選択し、サブ最適アクションを選択する可能性を減らす。
- 参考スコア(独自算出の注目度): 18.762198598488066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing value-based algorithms for cooperative multi-agent reinforcement learning (MARL) commonly rely on random exploration, such as $\epsilon$-greedy, to explore the environment. However, such exploration is inefficient at finding effective joint actions in states that require cooperation of multiple agents. In this work, we propose ensemble value functions for multi-agent exploration (EMAX), a general framework to seamlessly extend value-based MARL algorithms with ensembles of value functions. EMAX leverages the ensemble of value functions to guide the exploration of agents, stabilises their optimisation, and makes their policies more robust to miscoordination. These benefits are achieved by using a combination of three techniques. (1) EMAX uses the uncertainty of value estimates across the ensemble in a UCB policy to guide the exploration. This exploration policy focuses on parts of the environment which require cooperation across agents and, thus, enables agents to more efficiently learn how to cooperate. (2) During the optimisation, EMAX computes target values as average value estimates across the ensemble. These targets exhibit lower variance compared to commonly applied target networks, leading to significant benefits in MARL which commonly suffers from high variance caused by the exploration and non-stationary policies of other agents. (3) During evaluation, EMAX selects actions following a majority vote across the ensemble, which reduces the likelihood of selecting sub-optimal actions. We instantiate three value-based MARL algorithms with EMAX, independent DQN, VDN and QMIX, and evaluate them in 21 tasks across four environments. Using ensembles of five value functions, EMAX improves sample efficiency and final evaluation returns of these algorithms by 60%, 47%, and 539%, respectively, averaged across 21 tasks.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)のための既存の価値に基づくアルゴリズムは、通常、環境を探索するために$\epsilon$-greedyのようなランダムな探索に依存している。
しかし、このような探索は、複数のエージェントの協力を必要とする状態において効果的な共同行動を見つけるのに非効率である。
本研究では,値関数のアンサンブルを用いた値ベースMARLアルゴリズムをシームレスに拡張する汎用フレームワークであるマルチエージェント探索(EMAX)のためのアンサンブル値関数を提案する。
EMAXは価値関数のアンサンブルを活用し、エージェントの探索をガイドし、最適化を安定化し、それらのポリシーを誤った調整に対してより堅牢にする。
これらの利点は、3つのテクニックを組み合わせることで達成される。
1EMAXは、UCB政策におけるアンサンブル全体の価値見積の不確実性を利用して探索を誘導する。
この探索政策は、エージェント間の協力を必要とする環境の一部に焦点を当て、エージェントがより効率的に協力する方法を学ぶことを可能にする。
2)最適化中、EMAXは目標値をアンサンブルの平均値推定値として計算する。
これらのターゲットは、一般的に適用されるターゲットネットワークに比べてばらつきが低く、他のエージェントの探索や非定常的なポリシーによって引き起こされる高い分散に苦しむMARLにおいて大きな利益をもたらす。
(3)評価中、EMAXはアンサンブル全体で多数決後の行動を選択するため、準最適行動を選択する可能性が低下する。
我々は,EMAX,独立DQN,VDN,QMIXの3つの値ベースMARLアルゴリズムをインスタンス化し,それらを4つの環境にわたる21のタスクで評価する。
5つの値関数のアンサンブルを使用して、EMAXは、21タスクの平均で、これらのアルゴリズムのサンプル効率と最終的な評価リターンを、それぞれ60%、47%、539%改善する。
関連論文リスト
- Mixed Q-Functionals: Advancing Value-Based Methods in Cooperative MARL
with Continuous Action Domains [0.0]
本稿では,Q-Functionalsのアイデアに触発された新しいマルチエージェント値ベースアルゴリズム,Mixed Q-Functionals(MQF)を提案する。
本アルゴリズムは,アクション値の混合によりエージェント間の協調を促進する。
実験の結果、MQFはDeep Deterministic Policy Gradientの4つの変種より優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-12T16:21:50Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Mastering the exploration-exploitation trade-off in Bayesian
Optimization [0.2538209532048867]
取得関数は、探索とエクスプロイトの間のバランスを評価するための次のソリューションの選択を駆動する。
本稿では,爆発的選択と搾取的選択のトレードオフを適応的に習得する,新たな獲得機能を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:19:03Z) - Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent
Reinforcement Learning [24.05715475457959]
協調型マルチエージェント強化学習(MARL)における効率的な探索の重要性
本研究では,逐次的行動計算の考え方に基づく協調探索を効果的に促進する探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T02:05:16Z) - Algorithmic Foundations of Empirical X-risk Minimization [51.58884973792057]
この原稿は、機械学習とAIの新しい最適化フレームワーク、bf empirical X-risk baseline (EXM)を紹介している。
Xリスク(X-risk)は、構成測度または目的の族を表すために導入された用語である。
論文 参考訳(メタデータ) (2022-06-01T12:22:56Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Attention Actor-Critic algorithm for Multi-Agent Constrained
Co-operative Reinforcement Learning [3.296127938396392]
協調的な環境下での強化学習(RL)エージェントの最適動作の計算問題について考察する。
我々はこのアルゴリズムを制約付きマルチエージェントRL設定に拡張する。
論文 参考訳(メタデータ) (2021-01-07T03:21:15Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。