論文の概要: Greedy UnMixing for Q-Learning in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.09034v1
- Date: Sun, 19 Sep 2021 00:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:43:24.403991
- Title: Greedy UnMixing for Q-Learning in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習におけるq-learningの欲張り解き
- Authors: Chapman Siu, Jason Traish, Richard Yi Da Xu
- Abstract要約: 本稿では,協調型マルチエージェント強化学習(MARL)のためのGreedy UnMix(GUM)を紹介する。
これは、MARL法が大きな共同状態-作用空間の一部として値の過大評価によって失敗するシナリオを避けることを目的としている。
我々は,既存のQ-learning MARL手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 8.883885464358737
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces Greedy UnMix (GUM) for cooperative multi-agent
reinforcement learning (MARL). Greedy UnMix aims to avoid scenarios where MARL
methods fail due to overestimation of values as part of the large joint
state-action space. It aims to address this through a conservative Q-learning
approach through restricting the state-marginal in the dataset to avoid
unobserved joint state action spaces, whilst concurrently attempting to unmix
or simplify the problem space under the centralized training with decentralized
execution paradigm. We demonstrate the adherence to Q-function lower bounds in
the Q-learning for MARL scenarios, and demonstrate superior performance to
existing Q-learning MARL approaches as well as more general MARL algorithms
over a set of benchmark MARL tasks, despite its relative simplicity compared
with state-of-the-art approaches.
- Abstract(参考訳): 本稿では,協調型マルチエージェント強化学習(MARL)のためのGreedy UnMix(GUM)を提案する。
Greedy UnMixは、MARLメソッドが大きなジョイントステートアクション空間の一部として値の過大評価によって失敗するシナリオを避けることを目的としている。
これは、データセットの状態マージを制限し、観測されていない共同状態のアクションスペースを避けることによって、保守的なqラーニングアプローチを通じてこれに対処することを目的としている。
MARL のシナリオに対する Q 関数の下位境界の順守を実証し、既存の Q 学習 MARL の手法とベンチマーク MARL のタスクに対するより一般的な MARL アルゴリズムに優れた性能を示す。
関連論文リスト
- POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning [10.186029242664931]
我々は,MARL訓練を補完するために考案された総合表現学習の形式を適用したMAPO-LSOを提案する。
特に、MAPO-LSOは遷移力学再構成と自己予測学習のマルチエージェント拡張を提案する。
実験の結果,MAPO-LSOはバニラMARLと比較して,サンプル効率と学習性能の顕著な向上を示した。
論文 参考訳(メタデータ) (2024-06-05T03:11:44Z) - Robust Multi-Agent Reinforcement Learning with State Uncertainty [17.916400875478377]
本研究における状態不確実性を考慮したMARLの問題点について検討する。
このような平衡を求めるために,頑健なマルチエージェントQ-ラーニングアルゴリズムを提案する。
実験の結果,提案したRMAQアルゴリズムは最適値関数に収束することがわかった。
論文 参考訳(メタデータ) (2023-07-30T12:31:42Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - State-based Episodic Memory for Multi-Agent Reinforcement Learning [34.129127969290785]
StarCraft Multi-agent Challenge (SMAC)の実験結果によると、MARLにエピソードメモリを導入することでサンプル効率が向上し、SEMはSAEMと比較してストレージコストと時間コストを削減できる。
論文 参考訳(メタデータ) (2021-10-19T09:39:19Z) - Regularize! Don't Mix: Multi-Agent Reinforcement Learning without
Explicit Centralized Structures [8.883885464358737]
Em Multi-Agent Regularized Q-learning (MARQ) と呼ばれる明示的な協調構造を学習するのではなく、正規化を用いたマルチエージェント強化学習を提案する。
提案アルゴリズムは,複数のベンチマークマルチエージェント環境において評価され,MARQが複数のベースラインや最先端のアルゴリズムより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-09-19T00:58:38Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。