論文の概要: Local Advantage Networks for Cooperative Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2112.12458v3
- Date: Thu, 26 Oct 2023 11:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 07:15:55.036494
- Title: Local Advantage Networks for Cooperative Multi-Agent Reinforcement
Learning
- Title(参考訳): 協調型マルチエージェント強化学習のためのローカルアドバンテージネットワーク
- Authors: Rapha\"el Avalos, Mathieu Reymond, Ann Now\'e, Diederik M. Roijers
- Abstract要約: 本稿では,協調的部分観測環境のための新しいタイプの強化学習アルゴリズムを提案する。
我々は、各エージェントに対して、個別の利点関数を介して分散化されたベストレスポンスポリシーを学ぶために、デュエルアーキテクチャを使用します。
StarCraft IIマルチエージェントチャレンジベンチマークの評価は、LANが最先端のパフォーマンスに達することを示している。
- 参考スコア(独自算出の注目度): 1.1879716317856945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent successful off-policy multi-agent reinforcement learning (MARL)
algorithms for cooperative partially observable environments focus on finding
factorized value functions, leading to convoluted network structures. Building
on the structure of independent Q-learners, our LAN algorithm takes a radically
different approach, leveraging a dueling architecture to learn for each agent a
decentralized best-response policies via individual advantage functions. The
learning is stabilized by a centralized critic whose primary objective is to
reduce the moving target problem of the individual advantages. The critic,
whose network's size is independent of the number of agents, is cast aside
after learning. Evaluation on the StarCraft II multi-agent challenge benchmark
shows that LAN reaches state-of-the-art performance and is highly scalable with
respect to the number of agents, opening up a promising alternative direction
for MARL research.
- Abstract(参考訳): 近年,協調的部分観測可能な環境のためのマルチエージェント強化学習 (MARL) アルゴリズムが成功している。
独立Qラーナーの構造に基づいて、我々のLANアルゴリズムは根本的に異なるアプローチをとり、各エージェントに対して個別の利点関数を介して分散化されたベストレスポンスポリシーを学ぶためにデュエルアーキテクチャを活用する。
学習は、個人の利益の移動目標問題を減らすことを主目的とする集中的な批評家によって安定化される。
ネットワークのサイズがエージェントの数とは無関係である批評家は、学習後に脇に置かれる。
StarCraft IIマルチエージェントチャレンジベンチマークの評価は、LANが最先端のパフォーマンスに達し、エージェントの数に関して非常にスケーラブルであることを示し、MARL研究の有望な代替方向を開く。
関連論文リスト
- Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement
Learning [19.519440854957633]
本稿では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。
ROLAにより、各エージェントはローカルな批評家として個々のアクション値関数を学習し、環境の非定常性を改善することができる。
複数の最先端マルチエージェントポリシー勾配アルゴリズムに対して,ROLAの堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T19:03:34Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Toward Multiple Federated Learning Services Resource Sharing in Mobile
Edge Networks [88.15736037284408]
本稿では,マルチアクセスエッジコンピューティングサーバにおいて,複数のフェデレーション付き学習サービスの新たなモデルについて検討する。
共同資源最適化とハイパーラーニング率制御の問題,すなわちMS-FEDLを提案する。
シミュレーションの結果,提案アルゴリズムの収束性能を実証した。
論文 参考訳(メタデータ) (2020-11-25T01:29:41Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。