論文の概要: Local Advantage Networks for Cooperative Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2112.12458v1
- Date: Thu, 23 Dec 2021 10:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 14:28:56.834621
- Title: Local Advantage Networks for Cooperative Multi-Agent Reinforcement
Learning
- Title(参考訳): 協調型マルチエージェント強化学習のためのローカルアドバンテージネットワーク
- Authors: Rapha\"el Avalos, Mathieu Reymond, Ann Now\'e, Diederik M. Roijers
- Abstract要約: マルチエージェント強化学習(MARL)により,課題のある環境で適応エージェントを作成することができる。
独立系Qラーナーの構造に基づいて、最適な分散政策を学習する。
LANは2つの未解決地図廊下と3s5z_vs_3s6z'で80%以上の勝利を示した。
- 参考スコア(独自算出の注目度): 3.8099752264464883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) enables us to create adaptive
agents in challenging environments, even when the agents have limited
observation. Modern MARL methods have hitherto focused on finding factorized
value functions. While this approach has proven successful, the resulting
methods have convoluted network structures. We take a radically different
approach, and build on the structure of independent Q-learners. Inspired by
influence-based abstraction, we start from the observation that compact
representations of the observation-action histories can be sufficient to learn
close to optimal decentralized policies. Combining this observation with a
dueling architecture, our algorithm, LAN, represents these policies as separate
individual advantage functions w.r.t. a centralized critic. These local
advantage networks condition only on a single agent's local observation-action
history. The centralized value function conditions on the agents'
representations as well as the full state of the environment. The value
function, which is cast aside before execution, serves as a stabilizer that
coordinates the learning and to formulate DQN targets during learning. In
contrast with other methods, this enables LAN to keep the number of network
parameters of its centralized network independent in the number of agents,
without imposing additional constraints like monotonic value functions. When
evaluated on the StarCraft multi-agent challenge benchmark, LAN shows
state-of-the-art performance and scores more than 80% wins in two previously
unsolved maps `corridor' and `3s5z_vs_3s6z', leading to an improvement of 10%
over QPLEX on average performance on the 14 maps. Moreover when the number of
agents becomes large, LAN uses significantly fewer parameters than QPLEX or
even QMIX. We thus show that LAN's structure forms a key improvement that helps
MARL methods remain scalable.
- Abstract(参考訳): マルチエージェント強化学習 (MARL) は, エージェントが観察に限界がある場合でも, 課題のある環境で適応エージェントを作成できる。
現代のMARL法は因子化値関数の発見に重点を置いている。
このアプローチは成功したが、結果として得られた手法はネットワーク構造を複雑にしている。
私たちは根本的に異なるアプローチをとり、独立したq-learnerの構造を構築します。
影響に基づく抽象化に着想を得て,観察行動履歴のコンパクト表現は,最適分散政策に近いものを学ぶのに十分である,という観察から始める。
この観測をデュエルアーキテクチャと組み合わせることで、我々のアルゴリズムであるLANは、これらのポリシーを中央集権的批判者による個別の優位関数として表現する。
これらのローカルアドバンテージネットワークは、単一のエージェントのローカルな観測-アクション履歴にのみ条件付けられる。
エージェントの表現と環境の完全な状態に関する一元的な値関数条件。
値関数は実行前にキャストされるが、学習をコーディネートし、学習中にDQNターゲットを定式化する安定化器として機能する。
他の方法とは対照的に、LANはモノトニック値関数のような追加の制約を課すことなく、エージェント数に独立して中央ネットワークのネットワークパラメータ数を維持できる。
StarCraftのマルチエージェントチャレンジベンチマークで評価すると、LANは最先端のパフォーマンスを示し、未解決の2つのマップ 'corridor' と `3s5z_vs_3s6z' で80%以上の勝利を達成し、14のマップの平均的なパフォーマンスでQPLEXよりも10%向上した。
さらに、エージェント数が大きくなると、LANはQPLEXやQMIXよりもはるかに少ないパラメータを使用する。
したがって、LANの構造がMARLメソッドのスケーラビリティを維持する上で重要な改善となることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - ROMA-iQSS: An Objective Alignment Approach via State-Based Value Learning and ROund-Robin Multi-Agent Scheduling [44.276285521929424]
本稿では,エージェントが独立して最適な状態を発見できる分散状態ベース価値学習アルゴリズムを提案する。
我々の理論分析は、我々のアプローチが分散化されたエージェントを最適な集団政策へと導くことを示している。
さらに実験により,本手法が既存の分散状態ベースおよび行動ベース価値学習戦略より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-05T09:39:47Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement
Learning [19.519440854957633]
本稿では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。
ROLAにより、各エージェントはローカルな批評家として個々のアクション値関数を学習し、環境の非定常性を改善することができる。
複数の最先端マルチエージェントポリシー勾配アルゴリズムに対して,ROLAの堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T19:03:34Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。