論文の概要: Dealing With Non-stationarity in Decentralized Cooperative Multi-Agent
Deep Reinforcement Learning via Multi-Timescale Learning
- arxiv url: http://arxiv.org/abs/2302.02792v2
- Date: Thu, 17 Aug 2023 19:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 00:46:03.533726
- Title: Dealing With Non-stationarity in Decentralized Cooperative Multi-Agent
Deep Reinforcement Learning via Multi-Timescale Learning
- Title(参考訳): 複数時間学習による分散協調型深層強化学習における非定常処理
- Authors: Hadi Nekoei, Akilesh Badrinaaraayanan, Amit Sinha, Mohammad Amini,
Janarthanan Rajendran, Aditya Mahajan, Sarath Chandar
- Abstract要約: 分散協調深層学習(MARL)は多目的学習フレームワークである。
分散化深層MARLにおける重要な課題の1つは、複数のエージェントが同時に学習している場合の学習環境の非定常性である。
マルチスケール学習に基づく分散協調型MARLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.935860288840466
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Decentralized cooperative multi-agent deep reinforcement learning (MARL) can
be a versatile learning framework, particularly in scenarios where centralized
training is either not possible or not practical. One of the critical
challenges in decentralized deep MARL is the non-stationarity of the learning
environment when multiple agents are learning concurrently. A commonly used and
efficient scheme for decentralized MARL is independent learning in which agents
concurrently update their policies independently of each other. We first show
that independent learning does not always converge, while sequential learning
where agents update their policies one after another in a sequence is
guaranteed to converge to an agent-by-agent optimal solution. In sequential
learning, when one agent updates its policy, all other agent's policies are
kept fixed, alleviating the challenge of non-stationarity due to simultaneous
updates in other agents' policies. However, it can be slow because only one
agent is learning at any time. Therefore it might also not always be practical.
In this work, we propose a decentralized cooperative MARL algorithm based on
multi-timescale learning. In multi-timescale learning, all agents learn
simultaneously, but at different learning rates. In our proposed method, when
one agent updates its policy, other agents are allowed to update their policies
as well, but at a slower rate. This speeds up sequential learning, while also
minimizing non-stationarity caused by other agents updating concurrently.
Multi-timescale learning outperforms state-of-the-art decentralized learning
methods on a set of challenging multi-agent cooperative tasks in the
epymarl(Papoudakis et al., 2020) benchmark. This can be seen as a first step
towards more general decentralized cooperative deep MARL methods based on
multi-timescale learning.
- Abstract(参考訳): 分散協調型多エージェント深層強化学習(MARL)は,特に集中学習が不可能か実用的でない場合において,多目的学習の枠組みとなる。
分散化深層MARLにおける重要な課題の1つは、複数のエージェントが同時に学習している場合の学習環境の非定常性である。
分散marlの一般的かつ効率的なスキームは、エージェントが互いに独立してポリシーを同時更新する独立した学習である。
まず,独立学習は必ずしも収束しないが,エージェントが順次更新する逐次学習では,エージェント・バイ・エージェントの最適解に収束することが保証される。
逐次学習では、あるエージェントがそのポリシーを更新するとき、他のエージェントのポリシーはすべて固定され、他のエージェントのポリシーの同時更新による非定常性の課題を軽減する。
しかし、1つのエージェントだけがいつでも学習しているため、遅い場合もあります。
そのため、必ずしも実用的とは限らない。
本研究では,マルチスケール学習に基づく分散協調型MARLアルゴリズムを提案する。
マルチタイム学習では、すべてのエージェントが同時に学習するが、学習速度は異なる。
提案手法では,あるエージェントがポリシーを更新した場合,他のエージェントもポリシーを更新できるが,速度は遅くなる。
これによりシーケンシャルな学習がスピードアップし、同時に更新される他のエージェントによる非定常性を最小化する。
マルチタイムスケール学習は,epymarl(papoudakis et al., 2020)ベンチマークにおいて,課題の多いマルチエージェント協調タスク群において,最先端の分散学習手法を上回っている。
これは、マルチスケール学習に基づくより汎用的な分散協調型MARL手法への第一歩と見なすことができる。
関連論文リスト
- MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Asynchronous Actor-Critic for Multi-Agent Reinforcement Learning [19.540926205375857]
現実的な設定で複数のエージェント間で決定を同期することは、エージェントが他のエージェントが終了し、終了について確実に通信するのを待つ必要があるため、問題となる。
エージェントが3つの標準トレーニングパラダイムで非同期ポリシーを直接最適化できる非同期マルチエージェントアクター批判手法のセットを定式化する。
論文 参考訳(メタデータ) (2022-09-20T16:36:23Z) - Consensus Learning for Cooperative Multi-Agent Reinforcement Learning [12.74348597962689]
協調型マルチエージェント強化学習のためのコンセンサス学習を提案する。
我々は、エージェントのネットワークへの明示的な入力として、推論されたコンセンサスをフィードする。
提案手法は,様々なマルチエージェント強化学習アルゴリズムに拡張することができる。
論文 参考訳(メタデータ) (2022-06-06T12:43:07Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Parallel Knowledge Transfer in Multi-Agent Reinforcement Learning [0.2538209532048867]
本稿では,MARL(Parallel Attentional Transfer)における新しい知識伝達フレームワークを提案する。
PAT,学生モード,自己学習モードの2つの動作モードを設計する。
エージェントが環境に不慣れな場合、学生モードにおける共有注意機構は、エージェントの行動を決定するために、他のエージェントからの学習知識を効果的に選択する。
論文 参考訳(メタデータ) (2020-03-29T17:42:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。