論文の概要: Benchmarking Multi-Agent Deep Reinforcement Learning Algorithms in
Cooperative Tasks
- arxiv url: http://arxiv.org/abs/2006.07869v4
- Date: Tue, 9 Nov 2021 10:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 09:42:06.719075
- Title: Benchmarking Multi-Agent Deep Reinforcement Learning Algorithms in
Cooperative Tasks
- Title(参考訳): 協調作業におけるマルチエージェント深層強化学習アルゴリズムのベンチマーク
- Authors: Georgios Papoudakis, Filippos Christianos, Lukas Sch\"afer, Stefano V.
Albrecht
- Abstract要約: マルチエージェント深部強化学習(MARL)は、一般的に使われている評価課題や基準の欠如に悩まされている。
我々は,MARLアルゴリズムの3つのクラスを体系的に評価し,比較する。
我々の実験は、異なる学習課題におけるアルゴリズムの期待性能の基準として機能する。
- 参考スコア(独自算出の注目度): 11.480994804659908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent deep reinforcement learning (MARL) suffers from a lack of
commonly-used evaluation tasks and criteria, making comparisons between
approaches difficult. In this work, we provide a systematic evaluation and
comparison of three different classes of MARL algorithms (independent learning,
centralised multi-agent policy gradient, value decomposition) in a diverse
range of cooperative multi-agent learning tasks. Our experiments serve as a
reference for the expected performance of algorithms across different learning
tasks, and we provide insights regarding the effectiveness of different
learning approaches. We open-source EPyMARL, which extends the PyMARL codebase
to include additional algorithms and allow for flexible configuration of
algorithm implementation details such as parameter sharing. Finally, we
open-source two environments for multi-agent research which focus on
coordination under sparse rewards.
- Abstract(参考訳): マルチエージェント深部強化学習(MARL)は、一般的に使われている評価課題や基準の欠如に悩まされており、アプローチの比較が困難である。
本研究では,MARLアルゴリズムの3つのクラス(独立学習,集中型マルチエージェントポリシー勾配,値分解)を,多様な協調型マルチエージェント学習タスクにおいて体系的に評価・比較する。
本実験は,異なる学習課題にまたがるアルゴリズムの期待性能の基準として機能し,異なる学習手法の有効性に関する洞察を提供する。
我々は、pymarlコードベースを拡張し、追加のアルゴリズムを含め、パラメータ共有などのアルゴリズム実装の詳細を柔軟に設定できるようにepymarlをオープンソース化した。
最後に、スパース報酬による協調に焦点を当てたマルチエージェント研究のための2つの環境をオープンソース化する。
関連論文リスト
- POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - A Variational Approach to Mutual Information-Based Coordination for
Multi-Agent Reinforcement Learning [17.893310647034188]
マルチエージェント強化学習のための新しい相互情報フレームワークを提案する。
導出された下界を最大化するためにポリシーを適用することで,多エージェントアクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクティベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-01T12:21:30Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - The Multi-Agent Pickup and Delivery Problem: MAPF, MARL and Its
Warehouse Applications [2.969705152497174]
マルチエージェントピックアップおよび配送問題に対する2つの最先端ソリューションを,異なる原理に基づいて検討した。
具体的には、コンフリクトベースサーチ(CBS)と呼ばれるMAPFアルゴリズムと、共有経験アクター批判(SEAC)と呼ばれる現在のMARLアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2022-03-14T13:23:35Z) - Meta Navigator: Search for a Good Adaptation Policy for Few-shot
Learning [113.05118113697111]
少ないショット学習は、ラベル付きデータしか持たない新しいタスクに、以前のタスクから学んだ知識を適応させることを目的としている。
少数ショット学習に関する研究文献は、大きな多様性を示し、異なるアルゴリズムは、しばしば異なる少数ショット学習シナリオで優れている。
本稿では,メタナビゲータ(Meta Navigator)について紹介する。
論文 参考訳(メタデータ) (2021-09-13T07:20:01Z) - Survey of Recent Multi-Agent Reinforcement Learning Algorithms Utilizing
Centralized Training [0.7588690078299698]
本稿では,集中型学習のバリエーションについて論じ,アルゴリズム的アプローチに関する最近の調査について述べる。
本研究の目的は,集中学習における情報共有機構の異なる実装が,集団協調行動にどのように影響するかを検討することである。
論文 参考訳(メタデータ) (2021-07-29T20:29:12Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。