論文の概要: Exploiting Semantic Epsilon Greedy Exploration Strategy in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.10803v1
- Date: Wed, 26 Jan 2022 08:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 13:28:46.304270
- Title: Exploiting Semantic Epsilon Greedy Exploration Strategy in Multi-Agent
Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習におけるセマンティクス・エプシロン・グリーディ探索戦略の活用
- Authors: Hon Tik Tse, Ho-fung Leung
- Abstract要約: マルチエージェント強化学習(MARL)のための新しいアプローチQMIX(SEG)を提案する。
本手法では,QMIX値関数分解法を用いてエージェントごとのポリシーを訓練し,新しいセマンティック・エプシロン・グリーディ(SEG)探索戦略を提案する。
我々はSEGが原子行動よりも豊かな意味を持つ行動群を探索することで意味探索を促進することを論じる。
- 参考スコア(独自算出の注目度): 6.615661844604509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) can model many real world
applications. However, many MARL approaches rely on epsilon greedy for
exploration, which may discourage visiting advantageous states in hard
scenarios. In this paper, we propose a new approach QMIX(SEG) for tackling
MARL. It makes use of the value function factorization method QMIX to train
per-agent policies and a novel Semantic Epsilon Greedy (SEG) exploration
strategy. SEG is a simple extension to the conventional epsilon greedy
exploration strategy, yet it is experimentally shown to greatly improve the
performance of MARL. We first cluster actions into groups of actions with
similar effects and then use the groups in a bi-level epsilon greedy
exploration hierarchy for action selection. We argue that SEG facilitates
semantic exploration by exploring in the space of groups of actions, which have
richer semantic meanings than atomic actions. Experiments show that QMIX(SEG)
largely outperforms QMIX and leads to strong performance competitive with
current state-of-the-art MARL approaches on the StarCraft Multi-Agent Challenge
(SMAC) benchmark.
- Abstract(参考訳): マルチエージェント強化学習(marl)は多くの実世界のアプリケーションをモデル化できる。
しかし、多くのMARLアプローチはエプシロンの欲求に依存しており、ハードシナリオにおける有利な状態の訪問を妨げかねない。
本稿では,MARL 処理のための新しいアプローチ QMIX(SEG) を提案する。
本手法では,QMIX値関数分解法を用いてエージェントごとのポリシーを訓練し,新しいセマンティック・エプシロン・グリーディ(SEG)探索戦略を提案する。
SEGは従来のエプシロングリード探査戦略の単純な拡張であるが、MARLの性能を大幅に改善することが実験的に示されている。
まず、同様の効果を持つアクションのグループにアクションをクラスタ化し、次に、アクション選択のための二段階のエプシロングリーディ探索階層でグループを使用します。
我々はSEGが原子行動よりも豊かな意味を持つ行動群を探索することで意味探索を促進することを論じる。
実験により、QMIX(SEG)はQMIXよりも優れており、StarCraft Multi-Agent Challenge (SMAC)ベンチマークにおける現在の最先端のMARLアプローチと強い性能の競合をもたらすことが示された。
関連論文リスト
- MESA: Cooperative Meta-Exploration in Multi-Agent Learning through Exploiting State-Action Space Structure [37.56309011441144]
本稿では,協調型マルチエージェント学習のためのメタ探索手法であるMESAを紹介する。
エージェントはまず、訓練タスクからエージェントの高度に反転する状態-行動サブスペースを識別し、次にサブスペースを"探索する"ための多様な探索ポリシーのセットを学ぶことで探索を学ぶ。
実験の結果,多エージェント粒子環境とマルチエージェント MuJoCo 環境におけるスパース・リワードタスクにおいて,MESA は学習された探索ポリシにより,大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2024-05-01T23:19:48Z) - Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning [15.46907000938726]
協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。
並列マルコフ決定過程(MDP)におけるランダム化探索のための統一されたアルゴリズムフレームワークと,2つのトンプソンサンプリング型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。
提案手法は, 深層探査問題 (textiti.e.$N$-chain) , ビデオゲーム, エネルギーシステムにおける実世界の問題などを含む, 並列RL環境における提案手法の評価を行う。
論文 参考訳(メタデータ) (2024-04-16T17:01:38Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文 参考訳(メタデータ) (2024-02-28T01:45:01Z) - FoX: Formation-aware exploration in multi-agent reinforcement learning [10.554220876480297]
本研究では, 探索空間における構成に基づく等価性関係を提案し, 異なる構成の有意義な状態のみを探索することによって探索空間を削減することを目的とする。
数値計算の結果,提案するFoXフレームワークは,Google Research Football(GRF)における最先端のMARLアルゴリズムと,Starcraft IIマルチエージェントチャレンジ(SMAC)タスクを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-08-22T08:39:44Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。
探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文 参考訳(メタデータ) (2022-12-27T11:08:49Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。