論文の概要: Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.03439v7
- Date: Thu, 06 Feb 2025 21:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 15:39:22.363138
- Title: Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における効率的な探索のためのエンサンブル値関数
- Authors: Lukas Schäfer, Oliver Slumbers, Stephen McAleer, Yali Du, Stefano V. Albrecht, David Mguni,
- Abstract要約: マルチエージェント強化学習(MARL)は、エージェントが広い共同行動空間内で探索する必要がある。
EMAXは価値ベースのMARLアルゴリズムをシームレスに拡張するフレームワークである。
- 参考スコア(独自算出の注目度): 18.762198598488066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) requires agents to explore within a vast joint action space to find joint actions that lead to coordination. Existing value-based MARL algorithms commonly rely on random exploration, such as $\epsilon$-greedy, to explore the environment which is not systematic and inefficient at identifying effective actions in multi-agent problems. Additionally, the concurrent training of the policies of multiple agents during training can render the optimisation non-stationary. This can lead to unstable value estimates, highly variant gradients, and ultimately hinder coordination between agents. To address these challenges, we propose ensemble value functions for multi-agent exploration (EMAX). EMAX is a framework to seamlessly extend value-based MARL algorithms. EMAX leverages an ensemble of value functions for each agent to guide their exploration, reduce the variance of their optimisation, and makes their policies more robust to miscoordination. EMAX achieves these benefits by (1) systematically guiding the exploration of agents with a UCB policy towards parts of the environment that require multiple agents to coordinate. (2) EMAX computes average value estimates across the ensemble as target values to reduce the variance of gradients and make optimisation more stable. (3) During evaluation, EMAX selects actions following a majority vote across the ensemble to reduce the likelihood of miscoordination. We first instantiate independent DQN with EMAX and evaluate it in 11 general-sum tasks with sparse rewards. We show that EMAX improves final evaluation returns by 185% across all tasks. We then evaluate EMAX on top of IDQN, VDN and QMIX in 21 common-reward tasks, and show that EMAX improves sample efficiency and final evaluation returns across all tasks over all three vanilla algorithms by 60%, 47%, and 538%, respectively.
- Abstract(参考訳): マルチエージェント強化学習(MARL)では、エージェントが巨大な共同行動空間内を探索し、協調に繋がる共同行動を見つける必要がある。
既存の値ベースのMARLアルゴリズムは、例えば$\epsilon$-greedyのようなランダムな探索に頼り、マルチエージェント問題における効果的な行動を特定するのに、体系的で非効率な環境を探索する。
さらに、トレーニング中の複数のエージェントのポリシーの同時トレーニングは、最適化を非定常的に行うことができる。
これは不安定な値の推定、高度に変動した勾配、最終的にはエージェント間の調整を妨げる可能性がある。
これらの課題に対処するため,マルチエージェント探索(EMAX)のためのアンサンブル値関数を提案する。
EMAXは価値ベースのMARLアルゴリズムをシームレスに拡張するフレームワークである。
EMAXは、各エージェントの値関数のアンサンブルを利用して、探索をガイドし、最適化のばらつきを低減し、それらのポリシーを誤った調整に対してより堅牢にする。
EMAXは、(1)複数のエージェントの協調を必要とする環境の一部に向けて、UCBポリシーでエージェントの探索を体系的に導くことで、これらの利点を享受する。
2)EMAXはアンサンブル全体の平均値推定値を目標値として計算し,勾配のばらつきを低減し,最適化をより安定させる。
(3)評価中、EMAXはアンサンブル全体で多数決後の行動を選択し、誤調整の可能性を減らす。
まず、独立DQNをEMAXでインスタンス化し、より少ない報酬で11の一般タスクで評価する。
EMAXは全てのタスクにおいて最終評価結果が185%改善することを示す。
次に,2つの共通再帰タスクにおいて,IDQN,VDN,QMIX上でのEMAXの評価を行い,EMAXは3つのバニラアルゴリズムに対して,それぞれ60%,47%,538%の精度でサンプル効率を向上し,最終的な評価結果が得られることを示した。
関連論文リスト
- Policy Optimization and Multi-agent Reinforcement Learning for Mean-variance Team Stochastic Games [1.430310470698995]
長期平均分散チームゲーム(MV-TSG)について検討する。
MV-TSGの主な課題は2つある。第一に、分散計量は動的条件下では加法的でもマルコフ的でもない。
逐次更新方式を用いた平均分散マルチエージェントポリシー反復 (MV-MAPI) アルゴリズムを提案する。
定常点の特定の条件をナッシュ平衡とし、さらに厳密な局所最適条件を導出する。
論文 参考訳(メタデータ) (2025-03-28T16:21:05Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Multi-Agent Inverse Q-Learning from Demonstrations [3.4136908117644698]
Multi-Agent Marginal Q-Learning from Demonstrations (MAMQL)は、マルチエージェントIRLのための新しいサンプル効率フレームワークである。
MAMQLは,従来のマルチエージェント手法よりも平均報酬率,サンプル効率,報酬回復率を2~5倍に向上させることを示した。
論文 参考訳(メタデータ) (2025-03-06T18:22:29Z) - Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization [5.54284350152423]
本稿では,最大エントロピーRLフレームワークに付加的な局所Q値学習手法を組み込むことにより,QMIXの強化を提案する。
我々のアプローチは、全てのアクションの正しい順序を維持するために、局所的なQ値の推定を制約する。
理論的には,本手法の単調改善と収束性を最適解に証明する。
論文 参考訳(メタデータ) (2024-06-20T01:55:08Z) - Mixed Q-Functionals: Advancing Value-Based Methods in Cooperative MARL
with Continuous Action Domains [0.0]
本稿では,Q-Functionalsのアイデアに触発された新しいマルチエージェント値ベースアルゴリズム,Mixed Q-Functionals(MQF)を提案する。
本アルゴリズムは,アクション値の混合によりエージェント間の協調を促進する。
実験の結果、MQFはDeep Deterministic Policy Gradientの4つの変種より優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-12T16:21:50Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Mastering the exploration-exploitation trade-off in Bayesian
Optimization [0.2538209532048867]
取得関数は、探索とエクスプロイトの間のバランスを評価するための次のソリューションの選択を駆動する。
本稿では,爆発的選択と搾取的選択のトレードオフを適応的に習得する,新たな獲得機能を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:19:03Z) - Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent
Reinforcement Learning [24.05715475457959]
協調型マルチエージェント強化学習(MARL)における効率的な探索の重要性
本研究では,逐次的行動計算の考え方に基づく協調探索を効果的に促進する探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T02:05:16Z) - Algorithmic Foundations of Empirical X-risk Minimization [51.58884973792057]
この原稿は、機械学習とAIの新しい最適化フレームワーク、bf empirical X-risk baseline (EXM)を紹介している。
Xリスク(X-risk)は、構成測度または目的の族を表すために導入された用語である。
論文 参考訳(メタデータ) (2022-06-01T12:22:56Z) - Efficient Algorithms for Extreme Bandits [20.68824391770909]
我々は,学習者が最大の報酬を集めようとするマルチアーマッド・バンディットの変種であるExtreme Bandit問題に貢献する。
まず、報酬分布の尾部における軽度の仮定の下で、i.d確率変数の最大値の濃度について検討する。
次に,より適応性の高いQoMax-SDAアルゴリズムを提案し,解析する。
論文 参考訳(メタデータ) (2022-03-21T11:09:34Z) - Min-Max Bilevel Multi-objective Optimization with Applications in
Machine Learning [30.25074797092709]
本稿では,min-maxバイレベル多目的最適化フレームワークを提案する。
表現学習と超目的学習の応用を強調している。
論文 参考訳(メタデータ) (2022-03-03T18:56:13Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Attention Actor-Critic algorithm for Multi-Agent Constrained
Co-operative Reinforcement Learning [3.296127938396392]
協調的な環境下での強化学習(RL)エージェントの最適動作の計算問題について考察する。
我々はこのアルゴリズムを制約付きマルチエージェントRL設定に拡張する。
論文 参考訳(メタデータ) (2021-01-07T03:21:15Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。