論文の概要: DARL1N: Distributed multi-Agent Reinforcement Learning with One-hop
Neighbors
- arxiv url: http://arxiv.org/abs/2202.09019v1
- Date: Fri, 18 Feb 2022 04:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 14:15:20.429478
- Title: DARL1N: Distributed multi-Agent Reinforcement Learning with One-hop
Neighbors
- Title(参考訳): DARL1N:ワンホップ隣人による分散マルチエージェント強化学習
- Authors: Baoqian Wang, Junfei Xie, Nikolay Atanasov
- Abstract要約: 1-hop Neighbors (DARL1N) を用いた分散マルチエージェント強化学習(Distributed Multi-Agent Reinforcement Learning)と呼ばれるスケーラブルなマルチエージェント強化学習(MARL)手法を提案する。
DARL1Nは、エージェント間のグローバルな相互作用を分離し、情報の交換をワンホップの隣人に制限することで、次元の呪いを破る非政治的なアクター批判的手法である。
- 参考スコア(独自算出の注目度): 21.28553665933575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing multi-agent reinforcement learning (MARL) methods are limited
in the scale of problems they can handle. Particularly, with the increase of
the number of agents, their training costs grow exponentially. In this paper,
we address this limitation by introducing a scalable MARL method called
Distributed multi-Agent Reinforcement Learning with One-hop Neighbors (DARL1N).
DARL1N is an off-policy actor-critic method that breaks the curse of
dimensionality by decoupling the global interactions among agents and
restricting information exchanges to one-hop neighbors. Each agent optimizes
its action value and policy functions over a one-hop neighborhood,
significantly reducing the learning complexity, yet maintaining expressiveness
by training with varying numbers and states of neighbors. This structure allows
us to formulate a distributed learning framework to further speed up the
training procedure. Comparisons with state-of-the-art MARL methods show that
DARL1N significantly reduces training time without sacrificing policy quality
and is scalable as the number of agents increases.
- Abstract(参考訳): 既存のマルチエージェント強化学習(MARL)手法は、扱える問題の規模が限られている。
特にエージェント数の増加に伴い、トレーニングコストは指数関数的に増加する。
本稿では,DARL1N(One-hop Neighbors)を用いた分散マルチエージェント強化学習手法を提案する。
darl1nは、エージェント間のグローバルな相互作用を分離し、一方のホップの隣人に情報交換を制限することによって、次元の呪いを破るオフポリシーのアクタ-批判手法である。
各エージェントは、そのアクション値とポリシー関数をワンホップ地区で最適化し、学習の複雑さを著しく低減するが、近隣の様々な数と状態を訓練することで表現性を維持する。
この構造により、分散学習フレームワークを定式化し、トレーニング手順をさらに高速化することができます。
最先端のMARL法と比較すると、DARL1Nは政策品質を犠牲にすることなくトレーニング時間を著しく短縮し、エージェント数が増加するにつれてスケーラブルである。
関連論文リスト
- AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [82.59166059130702]
拡散モデル(DM)は,最近オフライン強化学習を含む様々なシナリオで大きな成功を収めている。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Depthwise Convolution for Multi-Agent Communication with Enhanced
Mean-Field Approximation [9.854975702211165]
本稿では,MARL(Multi-agent RL)課題に取り組むための,局所的なコミュニケーション学習に基づく新しい手法を提案する。
まず,局所的な関係を効率的に抽出する深層的畳み込み機能を利用する新しい通信プロトコルを設計する。
第2に,エージェント相互作用の規模を減らすために,平均場近似を導入する。
論文 参考訳(メタデータ) (2022-03-06T07:42:43Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Evaluating Generalization and Transfer Capacity of Multi-Agent
Reinforcement Learning Across Variable Number of Agents [0.0]
マルチエージェント強化学習(MARL)問題は、タスクを解決するためにエージェント間の協調を必要とすることが多い。
中央集権化と分散化は、MARLにおける協力のための2つのアプローチである。
分散実行パラダイムを用いた集中型トレーニングを採用し, エージェント数に応じて, 学習モデルの一般化と伝達能力について検討する。
論文 参考訳(メタデータ) (2021-11-28T15:29:46Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Many Agent Reinforcement Learning Under Partial Observability [10.11960004698409]
我々は,平均場法よりもエージェントネットワークの幅広いクラスにおいて,最適動作を学習できることを実証した。
我々は,平均場法よりもエージェントネットワークの幅広いクラスにおいて,最適動作を学習できることを実証した。
論文 参考訳(メタデータ) (2021-06-17T21:24:29Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。