論文の概要: Scalable Multi-Agent Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.15023v1
- Date: Wed, 25 May 2022 08:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 22:54:26.583388
- Title: Scalable Multi-Agent Model-Based Reinforcement Learning
- Title(参考訳): スケーラブルなマルチエージェントモデルに基づく強化学習
- Authors: Vladimir Egorov and Aleksei Shpilman
- Abstract要約: 我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
- 参考スコア(独自算出の注目度): 1.95804735329484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Multi-Agent Reinforcement Learning (MARL) literature has been largely
focused on Centralized Training with Decentralized Execution (CTDE) paradigm.
CTDE has been a dominant approach for both cooperative and mixed environments
due to its capability to efficiently train decentralized policies. While in
mixed environments full autonomy of the agents can be a desirable outcome,
cooperative environments allow agents to share information to facilitate
coordination. Approaches that leverage this technique are usually referred as
communication methods, as full autonomy of agents is compromised for better
performance. Although communication approaches have shown impressive results,
they do not fully leverage this additional information during training phase.
In this paper, we propose a new method called MAMBA which utilizes Model-Based
Reinforcement Learning (MBRL) to further leverage centralized training in
cooperative environments. We argue that communication between agents is enough
to sustain a world model for each agent during execution phase while imaginary
rollouts can be used for training, removing the necessity to interact with the
environment. These properties yield sample efficient algorithm that can scale
gracefully with the number of agents. We empirically confirm that MAMBA
achieves good performance while reducing the number of interactions with the
environment up to an orders of magnitude compared to Model-Free
state-of-the-art approaches in challenging domains of SMAC and Flatland.
- Abstract(参考訳): 近年のMARL(Multi-Agent Reinforcement Learning)文学は、分散実行による集中的訓練(CTDE)に重点を置いている。
ctdeは分散ポリシーを効率的に訓練する能力があるため、協調環境と混合環境の両方において支配的なアプローチである。
混合環境ではエージェントの完全な自律性が望ましい結果となりうるが、協調環境はエージェントが情報を共有して協調を促進することができる。
このテクニックを利用するアプローチは、エージェントの完全な自律性がよりよいパフォーマンスのために損なわれるため、一般的にコミュニケーションメソッドと呼ばれる。
コミュニケーションアプローチは印象的な結果を示しているが、トレーニング段階ではこの追加情報を十分に活用していない。
本稿では,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行フェーズにおける各エージェントのワールドモデルを維持するのに十分であり、仮想的なロールアウトはトレーニングに使用でき、環境とのインタラクションの必要性をなくすことができる。
これらの性質は、エージェントの数に応じて優雅にスケールできるサンプル効率のよいアルゴリズムをもたらす。
我々は,SMAC と Flatland の挑戦領域におけるモデルフリーの最先端アプローチと比較して,MAMBA が環境との対話回数を桁違いに減らし,良好な性能を達成できることを実証的に確認した。
関連論文リスト
- Communication-Efficient Training Workload Balancing for Decentralized Multi-Agent Learning [20.683081355473664]
分散マルチエージェント学習(DML)は、データのプライバシを保持しながら協調的なモデルトレーニングを可能にする。
ComDMLは分散アプローチを通じてエージェント間のワークロードのバランスをとる。
ComDMLは、最先端の手法と比較して、モデル精度を維持しながら、トレーニング全体の時間を著しく短縮することができる。
論文 参考訳(メタデータ) (2024-05-01T20:03:37Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。
このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。
訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文 参考訳(メタデータ) (2023-10-25T14:21:22Z) - Learning in Cooperative Multiagent Systems Using Cognitive and Machine
Models [1.0742675209112622]
マルチエージェントシステム(MAS)は、人間との協調と協調を必要とする多くのアプリケーションにとって重要である。
一つの大きな課題は、動的環境における独立したエージェントの同時学習と相互作用である。
我々はMulti-Agent IBLモデル(MAIBL)の3つの変種を提案する。
我々は,MAIBLモデルが学習速度を向上し,動的CMOTPタスクにおいて,現在のMADRLモデルと比較して様々な報酬設定でコーディネートを達成できることを実証した。
論文 参考訳(メタデータ) (2023-08-18T00:39:06Z) - Centralized Training with Hybrid Execution in Multi-Agent Reinforcement
Learning [7.163485179361718]
マルチエージェント強化学習(MARL)におけるハイブリッド実行の導入
MARLは、エージェントが任意の通信レベルを持つ協調タスクを実行時に完了させることを目標とする新しいパラダイムである。
我々は,自動回帰予測モデルを用いたMAROを集中的に訓練し,行方不明者の観察を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T14:58:32Z) - MA-Dreamer: Coordination and communication through shared imagination [5.253168177256072]
エージェント中心およびグローバルな環境の微分可能なモデルの両方を利用するモデルベース手法であるMA-Dreamerを提案する。
実験の結果,長期話者リスナータスクや強い部分観測性を持つ協調ゲームにおいて,MA-Dreamerはコーディネートを効果的に活用する解を見出すことができた。
論文 参考訳(メタデータ) (2022-04-10T13:54:26Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。