論文の概要: Efficient Episodic Memory Utilization of Cooperative Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.01112v2
- Date: Thu, 7 Mar 2024 13:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:36:19.923231
- Title: Efficient Episodic Memory Utilization of Cooperative Multi-Agent
Reinforcement Learning
- Title(参考訳): 協調型多エージェント強化学習の効率的なエピソード記憶利用
- Authors: Hyungho Na, Yunkyeong Seo, Il-chul Moon
- Abstract要約: 協調型マルチエージェント強化学習(MARL)では、エージェントは、敵を倒したり、ゴールを決めたりするなど、共通の目標を達成することを目的としている。
既存のMARLアルゴリズムは有効であるが、それでもかなりの学習時間が必要であり、複雑なタスクによってしばしば局所最適に閉じ込められる。
本稿では,MARL のための効率的なエピソード記憶利用 (EMU) について紹介する。 (a) エピソードバッファからのセマンティックコヒーレント記憶を活用して強化学習を促進すること, (b) 局所収束を防ぐための望ましい遷移を選択的に促進することである。
- 参考スコア(独自算出の注目度): 10.179452094577721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In cooperative multi-agent reinforcement learning (MARL), agents aim to
achieve a common goal, such as defeating enemies or scoring a goal. Existing
MARL algorithms are effective but still require significant learning time and
often get trapped in local optima by complex tasks, subsequently failing to
discover a goal-reaching policy. To address this, we introduce Efficient
episodic Memory Utilization (EMU) for MARL, with two primary objectives: (a)
accelerating reinforcement learning by leveraging semantically coherent memory
from an episodic buffer and (b) selectively promoting desirable transitions to
prevent local convergence. To achieve (a), EMU incorporates a trainable
encoder/decoder structure alongside MARL, creating coherent memory embeddings
that facilitate exploratory memory recall. To achieve (b), EMU introduces a
novel reward structure called episodic incentive based on the desirability of
states. This reward improves the TD target in Q-learning and acts as an
additional incentive for desirable transitions. We provide theoretical support
for the proposed incentive and demonstrate the effectiveness of EMU compared to
conventional episodic control. The proposed method is evaluated in StarCraft II
and Google Research Football, and empirical results indicate further
performance improvement over state-of-the-art methods.
- Abstract(参考訳): 協調型マルチエージェント強化学習(marl)では、エージェントは敵を倒したり、ゴールを決めたりといった共通の目標を達成することを目指している。
既存のMARLアルゴリズムは有効であるが、依然としてかなりの学習時間を必要としており、複雑なタスクによって局所的な最適状態に陥り、その結果、目標達成ポリシーの発見に失敗することが多い。
これを解決するために,MARLのための効率的なエピソードメモリ利用法(EMU)を紹介した。
(a)エピソードバッファからのセマンティックコヒーレントメモリを活用して強化学習を促進すること
b) 局所収束を防ぐために望ましい遷移を選択的に促進する。
達成するために
(a) EMUは、MARLと共にトレーニング可能なエンコーダ/デコーダ構造を採用し、探索メモリリコールを容易にするコヒーレントなメモリ埋め込みを生成する。
達成するために
(b)EMUは、国家の望ましさに基づく叙述的インセンティブと呼ばれる新しい報酬構造を導入する。
この報酬はQラーニングにおけるTD目標を改善し、望ましい移行のための追加のインセンティブとして機能する。
提案するインセンティブを理論的に支援し,従来のエピソード制御と比較してEMUの有効性を示す。
提案手法はStarCraft II と Google Research Football で評価され,実験結果から最先端の手法よりも性能が向上したことを示す。
関連論文リスト
- Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Learning towards Synchronous Network Memorizability and Generalizability
for Continual Segmentation across Multiple Sites [52.84959869494459]
臨床実践では、複数のサイトから連続的なデータストリームを継続的に学習するために、セグメンテーションネットワークが必要であることが多い。
既存の方法は、通常、以前のサイトのネットワーク記憶可能性や、目に見えないサイトの一般化可能性に制限される。
本稿では,SMG学習フレームワークの提案により,同期記憶可能性と一般化可能性の問題に取り組むことを目的とする。
論文 参考訳(メタデータ) (2022-06-14T13:04:36Z) - Episodic Multi-agent Reinforcement Learning with Curiosity-Driven
Exploration [40.87053312548429]
EMCと呼ばれる好奇心を駆使した新しい多エージェント強化学習について紹介する。
我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて探索的な情報的経験を利用して政策訓練を促進する。
論文 参考訳(メタデータ) (2021-11-22T07:34:47Z) - State-based Episodic Memory for Multi-Agent Reinforcement Learning [34.129127969290785]
StarCraft Multi-agent Challenge (SMAC)の実験結果によると、MARLにエピソードメモリを導入することでサンプル効率が向上し、SEMはSAEMと比較してストレージコストと時間コストを削減できる。
論文 参考訳(メタデータ) (2021-10-19T09:39:19Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - An unsupervised deep learning framework via integrated optimization of
representation learning and GMM-based modeling [31.334196673143257]
本稿では,ディープ表現とGMMに基づくディープモデリングの両面において,共同学習の新たな原則を提案する。
類似分野の既存の作業と比較すると、目的関数は2つの学習目標を持ち、共同で最適化されるように作成される。
クラスタ間距離を小さくすることでクラスタのコンパクト性を著しく向上し、クラスタ間距離を増大させることで分離性を向上させる。
論文 参考訳(メタデータ) (2020-09-11T04:57:03Z) - REMAX: Relational Representation for Multi-Agent Exploration [13.363887960136102]
ゲームの初期状態を生成する学習ベースの探索戦略を提案する。
本手法は,既存の探査手法よりも,MARLモデルの訓練と性能を向上させることを実証する。
論文 参考訳(メタデータ) (2020-08-12T10:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。