論文の概要: Credit Assignment with Meta-Policy Gradient for Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.12957v1
- Date: Wed, 24 Feb 2021 12:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 13:56:43.043959
- Title: Credit Assignment with Meta-Policy Gradient for Multi-Agent
Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のためのメタポリシー勾配付クレジット割り当て
- Authors: Jianzhun Shao, Hongchang Zhang, Yuhang Jiang, Shuncheng He, Xiangyang
Ji
- Abstract要約: MNMPG(Meta Policy Gradient)フレームワークを用いた一般的なメタラーニングベースの混合ネットワークを提案し、繊細な報酬分解のためにグローバルな階層を蒸留します。
starcraft iiのマイクロマネジメントベンチマークによる実験では、単純なユーティリティネットワークだけで現在のmarlアルゴリズムを上回ることができることが示されている。
- 参考スコア(独自算出の注目度): 29.895142928565228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward decomposition is a critical problem in centralized training with
decentralized execution~(CTDE) paradigm for multi-agent reinforcement learning.
To take full advantage of global information, which exploits the states from
all agents and the related environment for decomposing Q values into individual
credits, we propose a general meta-learning-based Mixing Network with Meta
Policy Gradient~(MNMPG) framework to distill the global hierarchy for delicate
reward decomposition. The excitation signal for learning global hierarchy is
deduced from the episode reward difference between before and after "exercise
updates" through the utility network. Our method is generally applicable to the
CTDE method using a monotonic mixing network. Experiments on the StarCraft II
micromanagement benchmark demonstrate that our method just with a simple
utility network is able to outperform the current state-of-the-art MARL
algorithms on 4 of 5 super hard scenarios. Better performance can be further
achieved when combined with a role-based utility network.
- Abstract(参考訳): 多エージェント強化学習のための分散実行〜(CTDE)パラダイムを用いた集中訓練において,逆分解は重要な問題である。
そこで本研究では,Q値を個別のクレジットに分解するために,すべてのエージェントと関連する環境の状態をフル活用するグローバル情報を活用するために,メタポリシーグラディエント~(MNMPG)を用いた総合メタラーニングネットワークを提案する。
グローバル階層学習のための励振信号は、ユーティリティネットワークを介して「更新の実施」前後のエピソード報酬差から導出される。
本手法は,単調混合ネットワークを用いたCTDE法に一般的に適用できる。
StarCraft IIマイクロマネジメントベンチマークの実験では、単純なユーティリティネットワークだけで、5つの超硬シナリオのうち4つで現在の最先端のMARLアルゴリズムより優れていることが示されている。
ロールベースのユーティリティネットワークと組み合わせることで、パフォーマンスをさらに向上できます。
関連論文リスト
- USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Hypernetworks in Meta-Reinforcement Learning [47.25270748922176]
マルチタスク強化学習(RL)とメタRLは、関連するタスクの分布を一般化することにより、サンプル効率を向上させることを目的としている。
最先端の手法はしばしば、各タスクを個別に学習する退化したソリューションよりも優れている。
Hypernetworksは、退化ソリューションの別々のポリシーを複製し、メタRLに適用できるので、将来性のある道です。
論文 参考訳(メタデータ) (2022-10-20T15:34:52Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Globally Convergent Multilevel Training of Deep Residual Networks [0.0]
ディープ残差ネットワーク(ResNets)のためのグローバル収束型マルチレベルトレーニング手法を提案する。
この手法は,学習中のミニバッチサイズを適応的に調整することにより,ハイブリッド(確率的-決定論的)な設定で動作する。
論文 参考訳(メタデータ) (2021-07-15T19:08:58Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - MetaGater: Fast Learning of Conditional Channel Gated Networks via
Federated Meta-Learning [46.79356071007187]
本稿では,バックボーンネットワークとチャネルゲーティングを協調的にトレーニングするための総合的なアプローチを提案する。
我々は,バックボーンネットワークとゲーティングモジュールの両方において,優れたメタ初期化を共同で学習するための,連携型メタ学習手法を開発した。
論文 参考訳(メタデータ) (2020-11-25T04:26:23Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。