論文の概要: Local Advantage Networks for Cooperative Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2112.12458v1
- Date: Thu, 23 Dec 2021 10:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 14:28:56.834621
- Title: Local Advantage Networks for Cooperative Multi-Agent Reinforcement
Learning
- Title(参考訳): 協調型マルチエージェント強化学習のためのローカルアドバンテージネットワーク
- Authors: Rapha\"el Avalos, Mathieu Reymond, Ann Now\'e, Diederik M. Roijers
- Abstract要約: マルチエージェント強化学習(MARL)により,課題のある環境で適応エージェントを作成することができる。
独立系Qラーナーの構造に基づいて、最適な分散政策を学習する。
LANは2つの未解決地図廊下と3s5z_vs_3s6z'で80%以上の勝利を示した。
- 参考スコア(独自算出の注目度): 3.8099752264464883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) enables us to create adaptive
agents in challenging environments, even when the agents have limited
observation. Modern MARL methods have hitherto focused on finding factorized
value functions. While this approach has proven successful, the resulting
methods have convoluted network structures. We take a radically different
approach, and build on the structure of independent Q-learners. Inspired by
influence-based abstraction, we start from the observation that compact
representations of the observation-action histories can be sufficient to learn
close to optimal decentralized policies. Combining this observation with a
dueling architecture, our algorithm, LAN, represents these policies as separate
individual advantage functions w.r.t. a centralized critic. These local
advantage networks condition only on a single agent's local observation-action
history. The centralized value function conditions on the agents'
representations as well as the full state of the environment. The value
function, which is cast aside before execution, serves as a stabilizer that
coordinates the learning and to formulate DQN targets during learning. In
contrast with other methods, this enables LAN to keep the number of network
parameters of its centralized network independent in the number of agents,
without imposing additional constraints like monotonic value functions. When
evaluated on the StarCraft multi-agent challenge benchmark, LAN shows
state-of-the-art performance and scores more than 80% wins in two previously
unsolved maps `corridor' and `3s5z_vs_3s6z', leading to an improvement of 10%
over QPLEX on average performance on the 14 maps. Moreover when the number of
agents becomes large, LAN uses significantly fewer parameters than QPLEX or
even QMIX. We thus show that LAN's structure forms a key improvement that helps
MARL methods remain scalable.
- Abstract(参考訳): マルチエージェント強化学習 (MARL) は, エージェントが観察に限界がある場合でも, 課題のある環境で適応エージェントを作成できる。
現代のMARL法は因子化値関数の発見に重点を置いている。
このアプローチは成功したが、結果として得られた手法はネットワーク構造を複雑にしている。
私たちは根本的に異なるアプローチをとり、独立したq-learnerの構造を構築します。
影響に基づく抽象化に着想を得て,観察行動履歴のコンパクト表現は,最適分散政策に近いものを学ぶのに十分である,という観察から始める。
この観測をデュエルアーキテクチャと組み合わせることで、我々のアルゴリズムであるLANは、これらのポリシーを中央集権的批判者による個別の優位関数として表現する。
これらのローカルアドバンテージネットワークは、単一のエージェントのローカルな観測-アクション履歴にのみ条件付けられる。
エージェントの表現と環境の完全な状態に関する一元的な値関数条件。
値関数は実行前にキャストされるが、学習をコーディネートし、学習中にDQNターゲットを定式化する安定化器として機能する。
他の方法とは対照的に、LANはモノトニック値関数のような追加の制約を課すことなく、エージェント数に独立して中央ネットワークのネットワークパラメータ数を維持できる。
StarCraftのマルチエージェントチャレンジベンチマークで評価すると、LANは最先端のパフォーマンスを示し、未解決の2つのマップ 'corridor' と `3s5z_vs_3s6z' で80%以上の勝利を達成し、14のマップの平均的なパフォーマンスでQPLEXよりも10%向上した。
さらに、エージェント数が大きくなると、LANはQPLEXやQMIXよりもはるかに少ないパラメータを使用する。
したがって、LANの構造がMARLメソッドのスケーラビリティを維持する上で重要な改善となることを示す。
関連論文リスト
- Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement
Learning [19.519440854957633]
本稿では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。
ROLAにより、各エージェントはローカルな批評家として個々のアクション値関数を学習し、環境の非定常性を改善することができる。
複数の最先端マルチエージェントポリシー勾配アルゴリズムに対して,ROLAの堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T19:03:34Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Toward Multiple Federated Learning Services Resource Sharing in Mobile
Edge Networks [88.15736037284408]
本稿では,マルチアクセスエッジコンピューティングサーバにおいて,複数のフェデレーション付き学習サービスの新たなモデルについて検討する。
共同資源最適化とハイパーラーニング率制御の問題,すなわちMS-FEDLを提案する。
シミュレーションの結果,提案アルゴリズムの収束性能を実証した。
論文 参考訳(メタデータ) (2020-11-25T01:29:41Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。