論文の概要: State-based Episodic Memory for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.09817v1
- Date: Tue, 19 Oct 2021 09:39:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:57:14.438857
- Title: State-based Episodic Memory for Multi-Agent Reinforcement Learning
- Title(参考訳): 多エージェント強化学習のための状態ベースエピソディックメモリ
- Authors: Xiao Ma, Wu-Jun Li
- Abstract要約: StarCraft Multi-agent Challenge (SMAC)の実験結果によると、MARLにエピソードメモリを導入することでサンプル効率が向上し、SEMはSAEMと比較してストレージコストと時間コストを削減できる。
- 参考スコア(独自算出の注目度): 34.129127969290785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) algorithms have made promising
progress in recent years by leveraging the centralized training and
decentralized execution (CTDE) paradigm. However, existing MARL algorithms
still suffer from the sample inefficiency problem. In this paper, we propose a
simple yet effective approach, called state-based episodic memory (SEM), to
improve sample efficiency in MARL. SEM adopts episodic memory (EM) to supervise
the centralized training procedure of CTDE in MARL. To the best of our
knowledge, SEM is the first work to introduce EM into MARL. We can
theoretically prove that, when using for MARL, SEM has lower space complexity
and time complexity than state and action based EM (SAEM), which is originally
proposed for single-agent reinforcement learning. Experimental results on
StarCraft multi-agent challenge (SMAC) show that introducing episodic memory
into MARL can improve sample efficiency and SEM can reduce storage cost and
time cost compared with SAEM.
- Abstract(参考訳): マルチエージェント強化学習(MARL)アルゴリズムは,CTDEパラダイムを活用することで,近年,有望な進歩を遂げている。
しかし、既存のmarlアルゴリズムは依然としてサンプル非効率の問題に苦しんでいる。
本稿では,marlのサンプル効率を改善するために,状態ベースエピソディックメモリ(sem)と呼ばれる簡易かつ効果的な手法を提案する。
sem は marl における ctde の集中訓練手順を監督するためにエピソディックメモリ (em) を採用している。
私たちの知る限りでは、SEMはEMをMARLに導入する最初の試みです。
理論的には、SEMがMARLを使用する場合、SEMは単一エージェント強化学習のために提案された状態と動作に基づくEM(SAEM)よりも空間複雑性と時間複雑性が低いことが証明できる。
starcraft multi-agent challenge (smac) の実験結果は、marlにエピソディックメモリを導入するとサンプル効率が向上し、semはsaemに比べてストレージコストと時間コストを削減できることを示した。
関連論文リスト
- Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning [10.186029242664931]
我々は,MARL訓練を補完するために考案された総合表現学習の形式を適用したMAPO-LSOを提案する。
特に、MAPO-LSOは遷移力学再構成と自己予測学習のマルチエージェント拡張を提案する。
実験の結果,MAPO-LSOはバニラMARLと比較して,サンプル効率と学習性能の顕著な向上を示した。
論文 参考訳(メタデータ) (2024-06-05T03:11:44Z) - Higher Replay Ratio Empowers Sample-Efficient Multi-Agent Reinforcement Learning [47.17030172520195]
MARL(Multi-Agent Reinforcement Learning)のサンプル効率は、その固有の部分的可観測性、非定常トレーニング、および巨大な戦略空間のため、より困難である。
広く使われているエピソードトレーニング機構は、サンプル効率の低下の原因となる可能性があると論じる。
既に収集したデータをよりよく活用するために,環境相互作用毎の勾配更新の頻度を高めることを提案する。
論文 参考訳(メタデータ) (2024-04-15T12:18:09Z) - Efficient Episodic Memory Utilization of Cooperative Multi-Agent
Reinforcement Learning [10.179452094577721]
協調型マルチエージェント強化学習(MARL)では、エージェントは、敵を倒したり、ゴールを決めたりするなど、共通の目標を達成することを目的としている。
既存のMARLアルゴリズムは有効であるが、それでもかなりの学習時間が必要であり、複雑なタスクによってしばしば局所最適に閉じ込められる。
本稿では,MARL のための効率的なエピソード記憶利用 (EMU) について紹介する。 (a) エピソードバッファからのセマンティックコヒーレント記憶を活用して強化学習を促進すること, (b) 局所収束を防ぐための望ましい遷移を選択的に促進することである。
論文 参考訳(メタデータ) (2024-03-02T07:37:05Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - CoopInit: Initializing Generative Adversarial Networks via Cooperative
Learning [50.90384817689249]
CoopInitは、協力的な学習ベースの戦略で、GANにとって良い出発点を素早く学べる。
本稿では,画像生成における提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-03-21T07:49:32Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - Greedy UnMixing for Q-Learning in Multi-Agent Reinforcement Learning [8.883885464358737]
本稿では,協調型マルチエージェント強化学習(MARL)のためのGreedy UnMix(GUM)を紹介する。
これは、MARL法が大きな共同状態-作用空間の一部として値の過大評価によって失敗するシナリオを避けることを目的としている。
我々は,既存のQ-learning MARL手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-19T00:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。