論文の概要: Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.10632v1
- Date: Wed, 22 Sep 2021 10:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:59:46.488784
- Title: Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): Locality Matters: 協調型マルチエージェント強化学習のためのスケーラブルな値分解アプローチ
- Authors: Roy Zohar, Shie Mannor, Guy Tennenholtz
- Abstract要約: 協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
- 参考スコア(独自算出の注目度): 52.7873574425376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative multi-agent reinforcement learning (MARL) faces significant
scalability issues due to state and action spaces that are exponentially large
in the number of agents. As environments grow in size, effective credit
assignment becomes increasingly harder and often results in infeasible learning
times. Still, in many real-world settings, there exist simplified underlying
dynamics that can be leveraged for more scalable solutions. In this work, we
exploit such locality structures effectively whilst maintaining global
cooperation. We propose a novel, value-based multi-agent algorithm called
LOMAQ, which incorporates local rewards in the Centralized Training
Decentralized Execution paradigm. Additionally, we provide a direct reward
decomposition method for finding these local rewards when only a global signal
is provided. We test our method empirically, showing it scales well compared to
other methods, significantly improving performance and convergence speed.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間のために,スケーラビリティに重大な問題に直面している。
環境が大きくなるにつれて、効果的なクレジットの割り当てはますます難しくなり、しばしば実現不可能な学習時間をもたらす。
それでも、多くの実世界の環境では、よりスケーラブルなソリューションに活用できる、単純化された基盤となるダイナミクスが存在する。
本研究では,このような局所構造を,グローバルな協力を維持しつつ効果的に活用する。
集中型訓練分散実行パラダイムに局所的な報酬を取り入れた,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
さらに,グローバル信号のみを提供する場合,局所的な報酬を見つけるための直接報酬分解法を提案する。
本手法を経験的にテストし,他の手法と比較してスケール性が良好であることを示し,性能と収束速度を大幅に改善した。
関連論文リスト
- United We Stand: Decentralized Multi-Agent Planning With Attrition [4.196094610996091]
分散計画は情報収集タスクのための協調型マルチエージェントシステムの鍵となる要素である。
本稿では,アクティブエージェントの集合の変化に時間的かつ効率的に適応できる分散アルゴリズムであるAttritable MCTSを提案する。
A-MCTSは高故障率でも効率よく適応できることを理論的および実験的に示す。
論文 参考訳(メタデータ) (2024-07-11T07:55:50Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Scalable Multi-Agent Reinforcement Learning for Networked Systems with
Average Reward [17.925681736096482]
マルチエージェント強化学習(MARL)が大きなスケーラビリティの問題に直面していることは長年認識されてきた。
本稿では、モデルが局所的な依存構造を示し、スケーラブルな方法で解けるような、ネットワーク化されたMARL問題のリッチなクラスを同定する。
論文 参考訳(メタデータ) (2020-06-11T17:23:17Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。