Fugu-MT 論文翻訳(概要): Towards a Standardised Performance Evaluation Protocol for Cooperative MARL

論文の概要: Towards a Standardised Performance Evaluation Protocol for Cooperative MARL

arxiv url: http://arxiv.org/abs/2209.10485v1
Date: Wed, 21 Sep 2022 16:40:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-22 15:49:35.385031
Title: Towards a Standardised Performance Evaluation Protocol for Cooperative MARL
Title（参考訳）: 協調marlの標準化性能評価プロトコルに向けて
Authors: Rihab Gorsane, Omayma Mahjoub, Ruan de Kock, Roland Dubb, Siddarth Singh, Arnu Pretorius
Abstract要約: マルチエージェント強化学習(MARL)は,分散型意思決定問題を大規模に解く上で有用な手法である。本研究は,MARLにおける大規模研究機関にまたがる評価手法に焦点をあてて,この迅速な開発についてより詳しく考察する。協調型MARLのための標準化された性能評価プロトコルを提案する。
参考スコア（独自算出の注目度）: 2.2977300225306583
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-agent reinforcement learning (MARL) has emerged as a useful approach to solving decentralised decision-making problems at scale. Research in the field has been growing steadily with many breakthrough algorithms proposed in recent years. In this work, we take a closer look at this rapid development with a focus on evaluation methodologies employed across a large body of research in cooperative MARL. By conducting a detailed meta-analysis of prior work, spanning 75 papers accepted for publication from 2016 to 2022, we bring to light worrying trends that put into question the true rate of progress. We further consider these trends in a wider context and take inspiration from single-agent RL literature on similar issues with recommendations that remain applicable to MARL. Combining these recommendations, with novel insights from our analysis, we propose a standardised performance evaluation protocol for cooperative MARL. We argue that such a standard protocol, if widely adopted, would greatly improve the validity and credibility of future research, make replication and reproducibility easier, as well as improve the ability of the field to accurately gauge the rate of progress over time by being able to make sound comparisons across different works. Finally, we release our meta-analysis data publicly on our project website for future research on evaluation: https://sites.google.com/view/marl-standard-protocol
Abstract（参考訳）: マルチエージェント強化学習(MARL)は,分散型意思決定問題を大規模に解く上で有用な手法である。この分野の研究は着実に成長しており、近年多くのブレークスルーアルゴリズムが提案されている。本研究は,この急速な発展に焦点をあて,共同marlにおける大規模研究で採用される評価手法に着目した。 2016年から2022年にかけて受理された75の論文を対象とし, 先行研究の詳細なメタ分析を行うことで, 進展率に疑問を呈する軽度懸念傾向を呈する。我々はさらに,これらの傾向をより広い文脈で検討し,marlに適用可能なレコメンデーションと類似した問題について,シングルエージェントのrl文学から着想を得た。これらの勧告と新たな知見を組み合わせることで,協調marlの標準化性能評価プロトコルを提案する。このような標準プロトコルが広く採用されれば、将来の研究の妥当性と信頼性が大幅に向上し、レプリケーションと再現性が容易になるとともに、異なる作業間で音速比較を行うことで、経時的な進捗率を正確に測定できる能力も向上するだろう。最後に、評価に関する将来の研究のために、メタ分析データをプロジェクトwebサイトで公開しています。

関連論文リスト

Revisiting LLM Evaluation through Mechanism Interpretability: a New Metric and Model Utility Law [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。本稿では,従来の性能指標を補完する機構解釈可能性技術を導入し,モデル利用指標(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Identifying Aspects in Peer Reviews [61.374437855024844]
我々は、ピアレビューのコーパスからきめ細かいアスペクトを抽出するデータ駆動型スキーマを開発した。我々は、アスペクトを付加したピアレビューのデータセットを導入し、コミュニティレベルのレビュー分析にどのように使用できるかを示す。
論文参考訳（メタデータ） (2025-04-09T14:14:42Z)
The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文参考訳（メタデータ） (2025-01-13T13:10:16Z)
Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [54.93461228053298]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文参考訳（メタデータ） (2024-12-23T08:15:34Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Dispelling the Mirage of Progress in Offline MARL through Standardised Baselines and Evaluation [3.5490824406092405]
オフラインマルチエージェント強化学習(MARL)は、現実世界のアプリケーションに非常に有望な新興分野である。オフラインMARLの研究の現状は、ベースラインと評価プロトコルの不整合に悩まされている。
論文参考訳（メタデータ） (2024-06-13T12:54:29Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Expanding Horizons in HCI Research Through LLM-Driven Qualitative Analysis [3.5253513747455303]
大規模言語モデル(LLM)を用いたHCIにおける定性解析の新しいアプローチを提案する。以上の結果から,LSMは従来の解析手法と一致しただけでなく,ユニークな知見も得られることが示唆された。
論文参考訳（メタデータ） (2024-01-07T12:39:31Z)
How much can change in a year? Revisiting Evaluation in Multi-Agent Reinforcement Learning [4.653136482223517]
我々は、MARLの出版物にメタデータを組み込むことにより、これまで公表されていた評価手法のデータベースを拡張した。この更新されたデータベースから抽出した結果と,研究で確認された傾向を比較した。 SMAC-v1は,SMAC-v2に継続することで,新たなアルゴリズム開発が促進される。
論文参考訳（メタデータ） (2023-12-13T19:06:34Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Model-based Multi-agent Reinforcement Learning: Recent Progress and Prospects [23.347535672670688]
マルチエージェント強化学習(MARL)は、複数の参加者が関与するシーケンシャルな意思決定問題に取り組む。 MARLは効果的なトレーニングのために膨大な数のサンプルを必要とする。モデルに基づく手法は、サンプル効率の証明可能な利点を実現することが示されている。
論文参考訳（メタデータ） (2022-03-20T17:24:47Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
MS MARCO: Benchmarking Ranking Models in the Large-Data Regime [57.37239054770001]
本稿では,MS MARCO と TREC Deep Learning Track をケーススタディとして用いた。評価の取り組みの設計が、特定の成果を奨励または阻止する方法を示します。我々は、ある種の落とし穴の分析と、そのような落とし穴を避けるためのベストプラクティスのステートメントを提供する。
論文参考訳（メタデータ） (2021-05-09T20:57:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。