論文の概要: Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation
- arxiv url: http://arxiv.org/abs/2012.03488v3
- Date: Sat, 8 May 2021 07:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 05:16:27.912010
- Title: Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation
- Title(参考訳): 近似同期アドバンテージ推定によるマルチエージェントポリシー最適化
- Authors: Lipeng Wan, Xuwei Song, Xuguang Lan, Nanning Zheng
- Abstract要約: マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
- 参考スコア(独自算出の注目度): 55.96893934962757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative multi-agent tasks require agents to deduce their own
contributions with shared global rewards, known as the challenge of credit
assignment. General methods for policy based multi-agent reinforcement learning
to solve the challenge introduce differentiate value functions or advantage
functions for individual agents. In multi-agent system, polices of different
agents need to be evaluated jointly. In order to update polices synchronously,
such value functions or advantage functions also need synchronous evaluation.
However, in current methods, value functions or advantage functions use
counter-factual joint actions which are evaluated asynchronously, thus suffer
from natural estimation bias. In this work, we propose the approximatively
synchronous advantage estimation. We first derive the marginal advantage
function, an expansion from single-agent advantage function to multi-agent
system. Further more, we introduce a policy approximation for synchronous
advantage estimation, and break down the multi-agent policy optimization
problem into multiple sub-problems of single-agent policy optimization. Our
method is compared with baseline algorithms on StarCraft multi-agent
challenges, and shows the best performance on most of the tasks.
- Abstract(参考訳): 協力型マルチエージェントタスクでは、クレジット割り当ての課題として知られる、グローバルな報酬を共有することで、エージェントが自身の貢献を推測する必要がある。
課題を解決するためのポリシベースマルチエージェント強化学習の一般的な方法は,個々のエージェントに対する価値関数やアドバンテージ関数の違いを導入する。
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
警察を同期的に更新するためには、そのような値関数や有利関数も同期評価を必要とする。
しかし、現在の手法では、値関数や有利関数は、非同期に評価される対実関節アクションを使用し、したがって自然な推定バイアスに悩まされる。
本研究では,近似的同期的優位推定法を提案する。
まず、一エージェントの利点関数からマルチエージェントシステムへの拡張である限界優位関数を導出する。
さらに,同期アドバンテージ推定のためのポリシ近似を導入し,マルチエージェント・ポリシー最適化問題を単一エージェント・ポリシー最適化の複数のサブ問題に分割する。
提案手法は,StarCraftマルチエージェント課題のベースラインアルゴリズムと比較し,ほとんどのタスクにおいて最高の性能を示す。
関連論文リスト
- On the Hardness of Decentralized Multi-Agent Policy Evaluation under Byzantine Attacks [12.696705862929337]
完全分散型マルチエージェント政策評価問題について,最大$f$の障害エージェントの存在下で検討する。
特に、モデル中毒設定を伴ういわゆるビザンツの欠陥モデルに焦点を当てる。
論文 参考訳(メタデータ) (2024-09-19T16:27:08Z) - Distributed Optimization via Kernelized Multi-armed Bandits [6.04275169308491]
分散最適化問題を異種報酬設定によるマルチエージェントカーネル化されたマルチアームバンディット問題としてモデル化する。
我々は,カーネルの一般的なクラスに対して,サブ線形なリフレッシュバウンドを実現するために,完全に分散化されたアルゴリズムであるマルチエージェントIGP-UCB(MA-IGP-UCB)を提案する。
また,Multi-agent Delayed IGP-UCB (MAD-IGP-UCB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-07T21:57:48Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - Simple Agent, Complex Environment: Efficient Reinforcement Learning with
Agent State [35.69801203107371]
任意の環境で動作可能な簡易強化学習エージェントを設計する。
エージェントは、各エージェント状態-アクションペアの訪問数と値の推定のみを保持する。
環境状態の数や、他の政策や歴史統計に関連付けられた混合時間に、これ以上依存することはない。
論文 参考訳(メタデータ) (2021-02-10T04:53:12Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。