論文の概要: Towards a Standardised Performance Evaluation Protocol for Cooperative
MARL
- arxiv url: http://arxiv.org/abs/2209.10485v1
- Date: Wed, 21 Sep 2022 16:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:49:35.385031
- Title: Towards a Standardised Performance Evaluation Protocol for Cooperative
MARL
- Title(参考訳): 協調marlの標準化性能評価プロトコルに向けて
- Authors: Rihab Gorsane, Omayma Mahjoub, Ruan de Kock, Roland Dubb, Siddarth
Singh, Arnu Pretorius
- Abstract要約: マルチエージェント強化学習(MARL)は,分散型意思決定問題を大規模に解く上で有用な手法である。
本研究は,MARLにおける大規模研究機関にまたがる評価手法に焦点をあてて,この迅速な開発についてより詳しく考察する。
協調型MARLのための標準化された性能評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 2.2977300225306583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) has emerged as a useful approach to
solving decentralised decision-making problems at scale. Research in the field
has been growing steadily with many breakthrough algorithms proposed in recent
years. In this work, we take a closer look at this rapid development with a
focus on evaluation methodologies employed across a large body of research in
cooperative MARL. By conducting a detailed meta-analysis of prior work,
spanning 75 papers accepted for publication from 2016 to 2022, we bring to
light worrying trends that put into question the true rate of progress. We
further consider these trends in a wider context and take inspiration from
single-agent RL literature on similar issues with recommendations that remain
applicable to MARL. Combining these recommendations, with novel insights from
our analysis, we propose a standardised performance evaluation protocol for
cooperative MARL. We argue that such a standard protocol, if widely adopted,
would greatly improve the validity and credibility of future research, make
replication and reproducibility easier, as well as improve the ability of the
field to accurately gauge the rate of progress over time by being able to make
sound comparisons across different works. Finally, we release our meta-analysis
data publicly on our project website for future research on evaluation:
https://sites.google.com/view/marl-standard-protocol
- Abstract(参考訳): マルチエージェント強化学習(MARL)は,分散型意思決定問題を大規模に解く上で有用な手法である。
この分野の研究は着実に成長しており、近年多くのブレークスルーアルゴリズムが提案されている。
本研究は,この急速な発展に焦点をあて,共同marlにおける大規模研究で採用される評価手法に着目した。
2016年から2022年にかけて受理された75の論文を対象とし, 先行研究の詳細なメタ分析を行うことで, 進展率に疑問を呈する軽度懸念傾向を呈する。
我々はさらに,これらの傾向をより広い文脈で検討し,marlに適用可能なレコメンデーションと類似した問題について,シングルエージェントのrl文学から着想を得た。
これらの勧告と新たな知見を組み合わせることで,協調marlの標準化性能評価プロトコルを提案する。
このような標準プロトコルが広く採用されれば、将来の研究の妥当性と信頼性が大幅に向上し、レプリケーションと再現性が容易になるとともに、異なる作業間で音速比較を行うことで、経時的な進捗率を正確に測定できる能力も向上するだろう。
最後に、評価に関する将来の研究のために、メタ分析データをプロジェクトwebサイトで公開しています。
関連論文リスト
- Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Expanding Horizons in HCI Research Through LLM-Driven Qualitative
Analysis [3.5253513747455303]
大規模言語モデル(LLM)を用いたHCIにおける定性解析の新しいアプローチを提案する。
以上の結果から,LSMは従来の解析手法と一致しただけでなく,ユニークな知見も得られることが示唆された。
論文 参考訳(メタデータ) (2024-01-07T12:39:31Z) - How much can change in a year? Revisiting Evaluation in Multi-Agent
Reinforcement Learning [4.653136482223517]
我々は、MARLの出版物にメタデータを組み込むことにより、これまで公表されていた評価手法のデータベースを拡張した。
この更新されたデータベースから抽出した結果と,研究で確認された傾向を比較した。
SMAC-v1は,SMAC-v2に継続することで,新たなアルゴリズム開発が促進される。
論文 参考訳(メタデータ) (2023-12-13T19:06:34Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Multi-Agent Reinforcement Learning: Methods, Applications, Visionary
Prospects, and Challenges [4.496883842534544]
マルチエージェント強化学習(MARL)は、広く使われている人工知能(AI)技術である。
本研究の目的は,今後10年間の研究動向と展望を概説することである。
論文 参考訳(メタデータ) (2023-05-17T09:53:13Z) - Model-based Multi-agent Reinforcement Learning: Recent Progress and
Prospects [23.347535672670688]
マルチエージェント強化学習(MARL)は、複数の参加者が関与するシーケンシャルな意思決定問題に取り組む。
MARLは効果的なトレーニングのために膨大な数のサンプルを必要とする。
モデルに基づく手法は、サンプル効率の証明可能な利点を実現することが示されている。
論文 参考訳(メタデータ) (2022-03-20T17:24:47Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - MS MARCO: Benchmarking Ranking Models in the Large-Data Regime [57.37239054770001]
本稿では,MS MARCO と TREC Deep Learning Track をケーススタディとして用いた。
評価の取り組みの設計が、特定の成果を奨励または阻止する方法を示します。
我々は、ある種の落とし穴の分析と、そのような落とし穴を避けるためのベストプラクティスのステートメントを提供する。
論文 参考訳(メタデータ) (2021-05-09T20:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。