論文の概要: How much can change in a year? Revisiting Evaluation in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.08463v2
- Date: Fri, 26 Jan 2024 12:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 17:22:27.530574
- Title: How much can change in a year? Revisiting Evaluation in Multi-Agent
Reinforcement Learning
- Title(参考訳): 1年でいくら変更できますか。
マルチエージェント強化学習における再考評価
- Authors: Siddarth Singh, Omayma Mahjoub, Ruan de Kock, Wiem Khlifi, Abidine
Vall, Kale-ab Tessera and Arnu Pretorius
- Abstract要約: 我々は、MARLの出版物にメタデータを組み込むことにより、これまで公表されていた評価手法のデータベースを拡張した。
この更新されたデータベースから抽出した結果と,研究で確認された傾向を比較した。
SMAC-v1は,SMAC-v2に継続することで,新たなアルゴリズム開発が促進される。
- 参考スコア(独自算出の注目度): 4.653136482223517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Establishing sound experimental standards and rigour is important in any
growing field of research. Deep Multi-Agent Reinforcement Learning (MARL) is
one such nascent field. Although exciting progress has been made, MARL has
recently come under scrutiny for replicability issues and a lack of
standardised evaluation methodology, specifically in the cooperative setting.
Although protocols have been proposed to help alleviate the issue, it remains
important to actively monitor the health of the field. In this work, we extend
the database of evaluation methodology previously published by containing
meta-data on MARL publications from top-rated conferences and compare the
findings extracted from this updated database to the trends identified in their
work. Our analysis shows that many of the worrying trends in performance
reporting remain. This includes the omission of uncertainty quantification, not
reporting all relevant evaluation details and a narrowing of algorithmic
development classes. Promisingly, we do observe a trend towards more difficult
scenarios in SMAC-v1, which if continued into SMAC-v2 will encourage novel
algorithmic development. Our data indicate that replicability needs to be
approached more proactively by the MARL community to ensure trust in the field
as we move towards exciting new frontiers.
- Abstract(参考訳): 健全な実験基準と厳密さの確立は、あらゆる研究分野において重要である。
Deep Multi-Agent Reinforcement Learning (MARL)は、そのような初期段階の分野である。
ワクワクする進展はあったが、MARLは最近、複製可能性の問題や標準化された評価方法論の欠如、特に協調的な環境での調査を受けている。
この問題を軽減するためのプロトコルが提案されているが、この分野の健康を積極的に監視することが重要である。
本研究は,marl出版物のメタデータを含む評価手法のデータベースを拡張し,更新されたデータベースから得られた知見と,その成果から得られた傾向を比較したものである。
我々の分析は、パフォーマンスレポートの懸念する傾向の多くが残っていることを示している。
これは不確実性定量化の欠如を含み、関連するすべての評価詳細を報告せず、アルゴリズム開発クラスを狭める。
SMAC-v1は,SMAC-v2に継続することで,新たなアルゴリズム開発が促進される。
我々のデータによると、新たなエキサイティングなフロンティアに向かう際には、MARLコミュニティがより積極的に複製性にアプローチする必要がある。
関連論文リスト
- Dispelling the Mirage of Progress in Offline MARL through Standardised Baselines and Evaluation [3.5490824406092405]
オフラインマルチエージェント強化学習(MARL)は、現実世界のアプリケーションに非常に有望な新興分野である。
オフラインMARLの研究の現状は、ベースラインと評価プロトコルの不整合に悩まされている。
論文 参考訳(メタデータ) (2024-06-13T12:54:29Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Towards a Standardised Performance Evaluation Protocol for Cooperative
MARL [2.2977300225306583]
マルチエージェント強化学習(MARL)は,分散型意思決定問題を大規模に解く上で有用な手法である。
本研究は,MARLにおける大規模研究機関にまたがる評価手法に焦点をあてて,この迅速な開発についてより詳しく考察する。
協調型MARLのための標準化された性能評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-09-21T16:40:03Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - Divergence-Regularized Multi-Agent Actor-Critic [17.995905582226467]
我々は、分散正規化マルチエージェント・アクター・クリティック(DMAC)という、政治以外の新しい協調型MARLフレームワークを提案する。
DMACはフレキシブルなフレームワークであり、既存のMARLアルゴリズムと組み合わせることができる。
DMACは既存のMARLアルゴリズムの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-10-01T10:27:42Z) - Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting
Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。
幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。
これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文 参考訳(メタデータ) (2021-07-14T17:22:14Z) - MS MARCO: Benchmarking Ranking Models in the Large-Data Regime [57.37239054770001]
本稿では,MS MARCO と TREC Deep Learning Track をケーススタディとして用いた。
評価の取り組みの設計が、特定の成果を奨励または阻止する方法を示します。
我々は、ある種の落とし穴の分析と、そのような落とし穴を避けるためのベストプラクティスのステートメントを提供する。
論文 参考訳(メタデータ) (2021-05-09T20:57:36Z) - Information State Embedding in Partially Observable Cooperative
Multi-Agent Reinforcement Learning [19.617644643147948]
エージェントの履歴を圧縮する情報状態埋め込みの概念を導入する。
圧縮誤差が分散制御における結果値関数にどのように影響するかを定量化する。
提案された組込み学習パイプラインは、既存の(部分的に観測可能な)MARLアルゴリズムのブラックボックスを開く。
論文 参考訳(メタデータ) (2020-04-02T16:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。