論文の概要: Asynchronous Actor-Critic for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.10113v1
- Date: Tue, 20 Sep 2022 16:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:52:18.578601
- Title: Asynchronous Actor-Critic for Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のための非同期アクタークリティック
- Authors: Yuchen Xiao, Weihao Tan and Christopher Amato
- Abstract要約: 現実的な設定で複数のエージェント間で決定を同期することは、エージェントが他のエージェントが終了し、終了について確実に通信するのを待つ必要があるため、問題となる。
エージェントが3つの標準トレーニングパラダイムで非同期ポリシーを直接最適化できる非同期マルチエージェントアクター批判手法のセットを定式化する。
- 参考スコア(独自算出の注目度): 19.540926205375857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synchronizing decisions across multiple agents in realistic settings is
problematic since it requires agents to wait for other agents to terminate and
communicate about termination reliably. Ideally, agents should learn and
execute asynchronously instead. Such asynchronous methods also allow temporally
extended actions that can take different amounts of time based on the situation
and action executed. Unfortunately, current policy gradient methods are not
applicable in asynchronous settings, as they assume that agents synchronously
reason about action selection at every time step. To allow asynchronous
learning and decision-making, we formulate a set of asynchronous multi-agent
actor-critic methods that allow agents to directly optimize asynchronous
policies in three standard training paradigms: decentralized learning,
centralized learning, and centralized training for decentralized execution.
Empirical results (in simulation and hardware) in a variety of realistic
domains demonstrate the superiority of our approaches in large multi-agent
problems and validate the effectiveness of our algorithms for learning
high-quality and asynchronous solutions.
- Abstract(参考訳): エージェントが他のエージェントが終了し、確実に終了について通信するのを待たなければならないため、現実的な設定で複数のエージェント間での意思決定の同期は問題となる。
理想的には、エージェントは非同期に学習し実行する必要がある。
このような非同期メソッドは、状況と実行されたアクションに基づいて異なる量の時間を要する、時間軸に拡張されたアクションも可能にする。
残念なことに、現在のポリシー勾配法は非同期設定では適用できない。
非同期学習と意思決定を可能にするために,エージェントが分散学習,集中学習,分散実行のための集中学習という3つの標準トレーニングパラダイムにおいて,非同期ポリシを直接最適化する非同期マルチエージェントアクタ批判手法を定式化した。
様々な現実的な領域における経験的結果(シミュレーションとハードウェア)は、大規模マルチエージェント問題における我々のアプローチの優位性を示し、高品質で非同期なソリューションを学習するためのアルゴリズムの有効性を検証する。
関連論文リスト
- ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Asynchronous Decentralized Q-Learning: Two Timescale Analysis By
Persistence [0.0]
非定常性はマルチエージェント強化学習(MARL)における基本的な課題である。
MARLの多くの理論的進歩は、エージェントのポリシー更新を様々な方法で調整することで、非定常性の課題を避ける。
同期化により、マルチタイムスケールの手法で多くのMARLアルゴリズムを解析できるが、多くの分散アプリケーションではそのような同期は不可能である。
論文 参考訳(メタデータ) (2023-08-07T01:32:09Z) - Dealing With Non-stationarity in Decentralized Cooperative Multi-Agent
Deep Reinforcement Learning via Multi-Timescale Learning [15.935860288840466]
分散協調深層学習(MARL)は多目的学習フレームワークである。
分散化深層MARLにおける重要な課題の1つは、複数のエージェントが同時に学習している場合の学習環境の非定常性である。
マルチスケール学習に基づく分散協調型MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-06T14:10:53Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied
Tasks [111.34055449929487]
エージェントが協力して家具をリビングルームに移動させるという,新しいタスクFurnMoveを紹介した。
既存のタスクとは異なり、FurnMoveはエージェントが各タイミングで調整する必要がある。
既存の分散化されたアクションサンプリング手順は、表現力のある共同アクションポリシーを許さない。
SynC-policiesとCORDIALを用いて、我々のエージェントはFurnMoveで58%の完成率を達成する。
論文 参考訳(メタデータ) (2020-07-09T17:59:57Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。