論文の概要: Towards a Standardised Performance Evaluation Protocol for Cooperative
MARL
- arxiv url: http://arxiv.org/abs/2209.10485v1
- Date: Wed, 21 Sep 2022 16:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:49:35.385031
- Title: Towards a Standardised Performance Evaluation Protocol for Cooperative
MARL
- Title(参考訳): 協調marlの標準化性能評価プロトコルに向けて
- Authors: Rihab Gorsane, Omayma Mahjoub, Ruan de Kock, Roland Dubb, Siddarth
Singh, Arnu Pretorius
- Abstract要約: マルチエージェント強化学習(MARL)は,分散型意思決定問題を大規模に解く上で有用な手法である。
本研究は,MARLにおける大規模研究機関にまたがる評価手法に焦点をあてて,この迅速な開発についてより詳しく考察する。
協調型MARLのための標準化された性能評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 2.2977300225306583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) has emerged as a useful approach to
solving decentralised decision-making problems at scale. Research in the field
has been growing steadily with many breakthrough algorithms proposed in recent
years. In this work, we take a closer look at this rapid development with a
focus on evaluation methodologies employed across a large body of research in
cooperative MARL. By conducting a detailed meta-analysis of prior work,
spanning 75 papers accepted for publication from 2016 to 2022, we bring to
light worrying trends that put into question the true rate of progress. We
further consider these trends in a wider context and take inspiration from
single-agent RL literature on similar issues with recommendations that remain
applicable to MARL. Combining these recommendations, with novel insights from
our analysis, we propose a standardised performance evaluation protocol for
cooperative MARL. We argue that such a standard protocol, if widely adopted,
would greatly improve the validity and credibility of future research, make
replication and reproducibility easier, as well as improve the ability of the
field to accurately gauge the rate of progress over time by being able to make
sound comparisons across different works. Finally, we release our meta-analysis
data publicly on our project website for future research on evaluation:
https://sites.google.com/view/marl-standard-protocol
- Abstract(参考訳): マルチエージェント強化学習(MARL)は,分散型意思決定問題を大規模に解く上で有用な手法である。
この分野の研究は着実に成長しており、近年多くのブレークスルーアルゴリズムが提案されている。
本研究は,この急速な発展に焦点をあて,共同marlにおける大規模研究で採用される評価手法に着目した。
2016年から2022年にかけて受理された75の論文を対象とし, 先行研究の詳細なメタ分析を行うことで, 進展率に疑問を呈する軽度懸念傾向を呈する。
我々はさらに,これらの傾向をより広い文脈で検討し,marlに適用可能なレコメンデーションと類似した問題について,シングルエージェントのrl文学から着想を得た。
これらの勧告と新たな知見を組み合わせることで,協調marlの標準化性能評価プロトコルを提案する。
このような標準プロトコルが広く採用されれば、将来の研究の妥当性と信頼性が大幅に向上し、レプリケーションと再現性が容易になるとともに、異なる作業間で音速比較を行うことで、経時的な進捗率を正確に測定できる能力も向上するだろう。
最後に、評価に関する将来の研究のために、メタ分析データをプロジェクトwebサイトで公開しています。
関連論文リスト
- Dispelling the Mirage of Progress in Offline MARL through Standardised Baselines and Evaluation [3.5490824406092405]
オフラインマルチエージェント強化学習(MARL)は、現実世界のアプリケーションに非常に有望な新興分野である。
オフラインMARLの研究の現状は、ベースラインと評価プロトコルの不整合に悩まされている。
論文 参考訳(メタデータ) (2024-06-13T12:54:29Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Metric-aware LLM inference for regression and scoring [52.764328080398805]
大規模言語モデル(LLM)は、様々なNLPタスクに対して強い結果を示してきた。
我々は,この推論戦略が,様々な回帰・スコアリングタスクや関連する評価指標に最適であることを示す。
我々は、カスタム回帰を最適化し、推定時にメトリクスをスコアリングする決定論的アプローチである、意識的距離 LLM 推論を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Expanding Horizons in HCI Research Through LLM-Driven Qualitative
Analysis [3.5253513747455303]
大規模言語モデル(LLM)を用いたHCIにおける定性解析の新しいアプローチを提案する。
以上の結果から,LSMは従来の解析手法と一致しただけでなく,ユニークな知見も得られることが示唆された。
論文 参考訳(メタデータ) (2024-01-07T12:39:31Z) - How much can change in a year? Revisiting Evaluation in Multi-Agent
Reinforcement Learning [4.653136482223517]
我々は、MARLの出版物にメタデータを組み込むことにより、これまで公表されていた評価手法のデータベースを拡張した。
この更新されたデータベースから抽出した結果と,研究で確認された傾向を比較した。
SMAC-v1は,SMAC-v2に継続することで,新たなアルゴリズム開発が促進される。
論文 参考訳(メタデータ) (2023-12-13T19:06:34Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Model-based Multi-agent Reinforcement Learning: Recent Progress and
Prospects [23.347535672670688]
マルチエージェント強化学習(MARL)は、複数の参加者が関与するシーケンシャルな意思決定問題に取り組む。
MARLは効果的なトレーニングのために膨大な数のサンプルを必要とする。
モデルに基づく手法は、サンプル効率の証明可能な利点を実現することが示されている。
論文 参考訳(メタデータ) (2022-03-20T17:24:47Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - MS MARCO: Benchmarking Ranking Models in the Large-Data Regime [57.37239054770001]
本稿では,MS MARCO と TREC Deep Learning Track をケーススタディとして用いた。
評価の取り組みの設計が、特定の成果を奨励または阻止する方法を示します。
我々は、ある種の落とし穴の分析と、そのような落とし穴を避けるためのベストプラクティスのステートメントを提供する。
論文 参考訳(メタデータ) (2021-05-09T20:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。