論文の概要: Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.15245v1
- Date: Mon, 30 May 2022 16:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 18:44:09.323944
- Title: Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における価値関数分解のための残差qネットワーク
- Authors: Rafael Pina, Varuna De Silva, Joosep Hook, and Ahmet Kondoz
- Abstract要約: マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Agent Reinforcement Learning (MARL) is useful in many problems that
require the cooperation and coordination of multiple agents. Learning optimal
policies using reinforcement learning in a multi-agent setting can be very
difficult as the number of agents increases. Recent solutions such as Value
Decomposition Networks (VDN), QMIX, QTRAN and QPLEX adhere to the centralized
training and decentralized execution scheme and perform factorization of the
joint action-value functions. However, these methods still suffer from
increased environmental complexity, and at times fail to converge in a stable
manner. We propose a novel concept of Residual Q-Networks (RQNs) for MARL,
which learns to transform the individual Q-value trajectories in a way that
preserves the Individual-Global-Max criteria (IGM), but is more robust in
factorizing action-value functions. The RQN acts as an auxiliary network that
accelerates convergence and will become obsolete as the agents reach the
training objectives. The performance of the proposed method is compared against
several state-of-the-art techniques such as QPLEX, QMIX, QTRAN and VDN, in a
range of multi-agent cooperative tasks. The results illustrate that the
proposed method, in general, converges faster, with increased stability and
shows robust performance in a wider family of environments. The improvements in
results are more prominent in environments with severe punishments for
non-cooperative behaviours and especially in the absence of complete state
information during training time.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、複数のエージェントの協調と協調を必要とする多くの問題において有用である。
エージェント数の増加に伴い,強化学習を用いた最適ポリシーの学習は非常に困難である。
価値分解ネットワーク(VDN)、QMIX、QTRAN、QPLEXといった最近のソリューションは、集中的なトレーニングと分散実行方式に準拠し、共同行動値関数の分解を行う。
しかし、これらの手法は依然として環境の複雑さの増大に苦しめられ、時には安定的に収束することができない。
本稿では,個人-グローバル-マックス基準(igm)を保ちながら,行動-値関数の分解においてより頑健な方法で,個々のq値軌跡を変換することを学ぶmarlのための残差q-networks(rqns)という新しい概念を提案する。
rqnは収束を加速する補助ネットワークとして働き、エージェントがトレーニング目標に達すると時代遅れになる。
提案手法の性能は,マルチエージェント協調作業におけるQPLEX,QMIX,QTRAN,VDNといった最先端技術と比較される。
その結果,提案手法は一般により高速に収束し,安定性が向上し,より広い環境群で頑健な性能を示した。
結果の改善は、非協力行動に対する厳しい罰、特に訓練期間中に完全な状態情報がない環境において顕著である。
関連論文リスト
- Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - The challenge of redundancy on multi-agent value factorisation [12.63182277116319]
協調型マルチエージェント強化学習(MARL)の分野において、標準パラダイムは集中型トレーニングと分散実行の利用である。
そこで我々は,LRP(Layerwise Relevance propagation)を利用して,結合値関数の学習と局所報酬信号の生成を分離する手法を提案する。
VDNとQmixの両方のベースラインの性能は冗長エージェントの数によって低下するが、RDNは影響を受けない。
論文 参考訳(メタデータ) (2023-03-28T20:41:12Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。