Fugu-MT 論文翻訳(概要): Greedy UnMixing for Q-Learning in Multi-Agent Reinforcement Learning

論文の概要: Greedy UnMixing for Q-Learning in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2109.09034v1
Date: Sun, 19 Sep 2021 00:35:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-21 16:43:24.403991
Title: Greedy UnMixing for Q-Learning in Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習におけるq-learningの欲張り解き
Authors: Chapman Siu, Jason Traish, Richard Yi Da Xu
Abstract要約: 本稿では,協調型マルチエージェント強化学習(MARL)のためのGreedy UnMix(GUM)を紹介する。これは、MARL法が大きな共同状態-作用空間の一部として値の過大評価によって失敗するシナリオを避けることを目的としている。我々は,既存のQ-learning MARL手法よりも優れた性能を示す。
参考スコア（独自算出の注目度）: 8.883885464358737
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper introduces Greedy UnMix (GUM) for cooperative multi-agent reinforcement learning (MARL). Greedy UnMix aims to avoid scenarios where MARL methods fail due to overestimation of values as part of the large joint state-action space. It aims to address this through a conservative Q-learning approach through restricting the state-marginal in the dataset to avoid unobserved joint state action spaces, whilst concurrently attempting to unmix or simplify the problem space under the centralized training with decentralized execution paradigm. We demonstrate the adherence to Q-function lower bounds in the Q-learning for MARL scenarios, and demonstrate superior performance to existing Q-learning MARL approaches as well as more general MARL algorithms over a set of benchmark MARL tasks, despite its relative simplicity compared with state-of-the-art approaches.
Abstract（参考訳）: 本稿では,協調型マルチエージェント強化学習(MARL)のためのGreedy UnMix(GUM)を提案する。 Greedy UnMixは、MARLメソッドが大きなジョイントステートアクション空間の一部として値の過大評価によって失敗するシナリオを避けることを目的としている。これは、データセットの状態マージを制限し、観測されていない共同状態のアクションスペースを避けることによって、保守的なqラーニングアプローチを通じてこれに対処することを目的としている。 MARL のシナリオに対する Q 関数の下位境界の順守を実証し、既存の Q 学習 MARL の手法とベンチマーク MARL のタスクに対するより一般的な MARL アルゴリズムに優れた性能を示す。

関連論文リスト

Ensemble-MIX: Enhancing Sample Efficiency in Multi-Agent RL Using Ensemble Methods [0.0]
マルチエージェント強化学習(MARL)法は,様々なマルチエージェントタスクにおいて最先端の結果を得た。しかし、MARLアルゴリズムは、単一のエージェントよりもはるかに多くの環境相互作用を必要とする。本稿では,分散された中央集権的批判と分散アンサンブル学習を組み合わせた新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-03T13:13:15Z)
Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文参考訳（メタデータ） (2025-05-09T11:42:31Z)
QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning? [4.429189958406034]
マルチエージェント強化学習(MARL)におけるクレジットの割り当ては依然として根本的な課題である。大規模言語モデル(LLM)を用いた信用代入関数の自動構築を容易にする新しいアルゴリズムである textbfQLLM を提案する。いくつかの標準MARLベンチマークで実施された大規模な実験は、提案手法が既存の最先端のベースラインを一貫して上回ることを示した。
論文参考訳（メタデータ） (2025-04-17T14:07:11Z)
O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文参考訳（メタデータ） (2025-01-31T08:08:20Z)
ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。 MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文参考訳（メタデータ） (2024-10-02T18:56:10Z)
POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文参考訳（メタデータ） (2024-07-20T16:37:21Z)
Robust Multi-Agent Reinforcement Learning with State Uncertainty [17.916400875478377]
本研究における状態不確実性を考慮したMARLの問題点について検討する。このような平衡を求めるために,頑健なマルチエージェントQ-ラーニングアルゴリズムを提案する。実験の結果,提案したRMAQアルゴリズムは最適値関数に収束することがわかった。
論文参考訳（メタデータ） (2023-07-30T12:31:42Z)
MA2CL:Masked Attentive Contrastive Learning for Multi-Agent Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。 MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2023-06-03T05:32:19Z)
Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。 SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。 SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文参考訳（メタデータ） (2023-05-18T10:37:54Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文参考訳（メタデータ） (2022-10-22T22:55:50Z)
State-based Episodic Memory for Multi-Agent Reinforcement Learning [34.129127969290785]
StarCraft Multi-agent Challenge (SMAC)の実験結果によると、MARLにエピソードメモリを導入することでサンプル効率が向上し、SEMはSAEMと比較してストレージコストと時間コストを削減できる。
論文参考訳（メタデータ） (2021-10-19T09:39:19Z)
Regularize! Don't Mix: Multi-Agent Reinforcement Learning without Explicit Centralized Structures [8.883885464358737]
Em Multi-Agent Regularized Q-learning (MARQ) と呼ばれる明示的な協調構造を学習するのではなく、正規化を用いたマルチエージェント強化学習を提案する。提案アルゴリズムは,複数のベンチマークマルチエージェント環境において評価され,MARQが複数のベースラインや最先端のアルゴリズムより一貫して優れていることを示す。
論文参考訳（メタデータ） (2021-09-19T00:58:38Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
Breaking the Curse of Many Agents: Provable Mean Embedding Q-Iteration for Mean-Field Reinforcement Learning [135.64775986546505]
我々はマルチエージェント強化学習(MARL)におけるエージェントの対称性を利用する我々は,平均場MARLを解くMF-FQIアルゴリズムを提案し,MF-FQIアルゴリズムの非漸近解析を確立する。 MF-FQIアルゴリズムは、多くの観測エージェントがMF-FQIアルゴリズムの性能を向上させるという意味で、「多くのエージェントの恵み」を享受する。
論文参考訳（メタデータ） (2020-06-21T21:45:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。