論文の概要: Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2110.08642v1
- Date: Sat, 16 Oct 2021 19:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:07:27.205529
- Title: Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement
Learning
- Title(参考訳): 頑健な多エージェント深部強化学習のための局所アドバンテージアクター批判
- Authors: Yuchen Xiao, Xueguang Lyu, Christopher Amato
- Abstract要約: 本稿では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。
ROLAにより、各エージェントはローカルな批評家として個々のアクション値関数を学習し、環境の非定常性を改善することができる。
複数の最先端マルチエージェントポリシー勾配アルゴリズムに対して,ROLAの堅牢性と有効性を示す。
- 参考スコア(独自算出の注目度): 19.519440854957633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient methods have become popular in multi-agent reinforcement
learning, but they suffer from high variance due to the presence of
environmental stochasticity and exploring agents (i.e., non-stationarity),
which is potentially worsened by the difficulty in credit assignment. As a
result, there is a need for a method that is not only capable of efficiently
solving the above two problems but also robust enough to solve a variety of
tasks. To this end, we propose a new multi-agent policy gradient method, called
Robust Local Advantage (ROLA) Actor-Critic. ROLA allows each agent to learn an
individual action-value function as a local critic as well as ameliorating
environment non-stationarity via a novel centralized training approach based on
a centralized critic. By using this local critic, each agent calculates a
baseline to reduce variance on its policy gradient estimation, which results in
an expected advantage action-value over other agents' choices that implicitly
improves credit assignment. We evaluate ROLA across diverse benchmarks and show
its robustness and effectiveness over a number of state-of-the-art multi-agent
policy gradient algorithms.
- Abstract(参考訳): 政策勾配法は, マルチエージェント強化学習において普及しているが, 環境確率性や探索エージェント(非定常性)の存在により, 高いばらつきに悩まされている。
その結果、上記の2つの問題を効率的に解くことができるだけでなく、様々なタスクを解くのに十分な頑健さを持つ方法が必要となる。
そこで本研究では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。
ROLAは、各エージェントが局所的批評家として個別の行動価値関数を学習し、集中的批評家に基づく新しい集中型トレーニングアプローチを通じて、非定常性を改善する。
この局所的批評家を用いて、各エージェントは基準線を計算し、ポリシー勾配推定のばらつきを減らし、暗黙的に信用代入を改善する他のエージェントの選択よりも期待される有利なアクション値をもたらす。
ROLAを様々なベンチマークで評価し、最先端のマルチエージェントポリシー勾配アルゴリズムよりも頑健さと有効性を示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。
本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文 参考訳(メタデータ) (2022-09-02T13:44:00Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - DSDF: An approach to handle stochastic agents in collaborative
multi-agent reinforcement learning [0.0]
ロボットの機能低下や老化によって引き起こされるエージェントの真偽が、協調の不確実性にどのように寄与するかを示す。
DSDFは不確実性に応じてエージェントの割引係数を調整し,その値を用いて個々のエージェントのユーティリティネットワークを更新する。
論文 参考訳(メタデータ) (2021-09-14T12:02:28Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。