論文の概要: Learning Implicit Credit Assignment for Cooperative Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.02529v2
- Date: Thu, 22 Oct 2020 14:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:11:45.123445
- Title: Learning Implicit Credit Assignment for Cooperative Multi-Agent
Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習における暗黙のクレジットアサインメント
- Authors: Meng Zhou, Ziyu Liu, Pengwei Sui, Yixuan Li, Yuk Ying Chung
- Abstract要約: 本研究では,完全協調環境下でのクレジット代入問題に対して,暗黙的に対処することを目的としたマルチエージェントアクタ批判手法を提案する。
我々の主要な動機は、中央集権的批評家の政策勾配が、彼らの共同行動価値を最大化するために、中央集権的エージェントのための十分な情報を持っている限り、エージェント間の信用割当が明示的な定式化を必要としないことである。
LICAと呼ばれるこのアルゴリズムは、マルチエージェント粒子環境やStar IIマイクロマネジメントタスクなど、いくつかのベンチマークで評価されている。
- 参考スコア(独自算出の注目度): 31.147638213056872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a multi-agent actor-critic method that aims to implicitly address
the credit assignment problem under fully cooperative settings. Our key
motivation is that credit assignment among agents may not require an explicit
formulation as long as (1) the policy gradients derived from a centralized
critic carry sufficient information for the decentralized agents to maximize
their joint action value through optimal cooperation and (2) a sustained level
of exploration is enforced throughout training. Under the centralized training
with decentralized execution (CTDE) paradigm, we achieve the former by
formulating the centralized critic as a hypernetwork such that a latent state
representation is integrated into the policy gradients through its
multiplicative association with the stochastic policies; to achieve the latter,
we derive a simple technique called adaptive entropy regularization where
magnitudes of the entropy gradients are dynamically rescaled based on the
current policy stochasticity to encourage consistent levels of exploration. Our
algorithm, referred to as LICA, is evaluated on several benchmarks including
the multi-agent particle environments and a set of challenging StarCraft II
micromanagement tasks, and we show that LICA significantly outperforms previous
methods.
- Abstract(参考訳): 本研究では,完全協調環境下でのクレジット代入問題に暗黙的に対処することを目的としたマルチエージェントアクタ批判手法を提案する。
本研究の目的は,(1)中央集権的な批判者から導かれる政策勾配が,最適な協力による共同行動価値を最大化するための十分な情報を持ち,(2)訓練を通じて調査の継続レベルが強制される限り,エージェント間の信用割り当ては明示的な定式化を必要としないことである。
Under the centralized training with decentralized execution (CTDE) paradigm, we achieve the former by formulating the centralized critic as a hypernetwork such that a latent state representation is integrated into the policy gradients through its multiplicative association with the stochastic policies; to achieve the latter, we derive a simple technique called adaptive entropy regularization where magnitudes of the entropy gradients are dynamically rescaled based on the current policy stochasticity to encourage consistent levels of exploration.
LICAと呼ばれるアルゴリズムは、マルチエージェント粒子環境や、StarCraft IIのマイクロマネジメントタスクのセットなど、いくつかのベンチマークで評価され、LICAが従来の手法よりも大幅に優れていることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - ROMA-iQSS: An Objective Alignment Approach via State-Based Value Learning and ROund-Robin Multi-Agent Scheduling [44.276285521929424]
本稿では,エージェントが独立して最適な状態を発見できる分散状態ベース価値学習アルゴリズムを提案する。
我々の理論分析は、我々のアプローチが分散化されたエージェントを最適な集団政策へと導くことを示している。
さらに実験により,本手法が既存の分散状態ベースおよび行動ベース価値学習戦略より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-05T09:39:47Z) - Decentralized Policy Optimization [21.59254848913971]
単調な改善と収束を保証する分散型アクター批判アルゴリズムであるテキスト分散ポリシー最適化(DPO)を提案する。
実験的に、DPOとIPPOを協調的な多エージェントタスクで比較し、離散的かつ連続的な行動空間、完全かつ部分的に観察可能な環境を網羅した。
論文 参考訳(メタデータ) (2022-11-06T05:38:23Z) - Communication-Efficient Actor-Critic Methods for Homogeneous Markov
Games [6.589813623221242]
政策共有は、特定のタスクにおける効率的な学習には不可欠であるが、理論上の正当化は欠如している。
コンセンサスに基づく最初の分散型アクター批判手法を開発した。
また,訓練中の通信コストを削減するために,分散型アクター批判手法に基づく実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-18T20:35:00Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement
Learning [19.519440854957633]
本稿では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。
ROLAにより、各エージェントはローカルな批評家として個々のアクション値関数を学習し、環境の非定常性を改善することができる。
複数の最先端マルチエージェントポリシー勾配アルゴリズムに対して,ROLAの堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T19:03:34Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。