論文の概要: Dispelling the Mirage of Progress in Offline MARL through Standardised Baselines and Evaluation
- arxiv url: http://arxiv.org/abs/2406.09068v3
- Date: Wed, 30 Oct 2024 12:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:34.782677
- Title: Dispelling the Mirage of Progress in Offline MARL through Standardised Baselines and Evaluation
- Title(参考訳): 標準ベースラインと評価によるオフラインMARLの進展のミラー化
- Authors: Claude Formanek, Callum Rhys Tilbury, Louise Beyers, Jonathan Shock, Arnu Pretorius,
- Abstract要約: オフラインマルチエージェント強化学習(MARL)は、現実世界のアプリケーションに非常に有望な新興分野である。
オフラインMARLの研究の現状は、ベースラインと評価プロトコルの不整合に悩まされている。
- 参考スコア(独自算出の注目度): 3.5490824406092405
- License:
- Abstract: Offline multi-agent reinforcement learning (MARL) is an emerging field with great promise for real-world applications. Unfortunately, the current state of research in offline MARL is plagued by inconsistencies in baselines and evaluation protocols, which ultimately makes it difficult to accurately assess progress, trust newly proposed innovations, and allow researchers to easily build upon prior work. In this paper, we firstly identify significant shortcomings in existing methodologies for measuring the performance of novel algorithms through a representative study of published offline MARL work. Secondly, by directly comparing to this prior work, we demonstrate that simple, well-implemented baselines can achieve state-of-the-art (SOTA) results across a wide range of tasks. Specifically, we show that on 35 out of 47 datasets used in prior work (almost 75% of cases), we match or surpass the performance of the current purported SOTA. Strikingly, our baselines often substantially outperform these more sophisticated algorithms. Finally, we correct for the shortcomings highlighted from this prior work by introducing a straightforward standardised methodology for evaluation and by providing our baseline implementations with statistically robust results across several scenarios, useful for comparisons in future work. Our proposal includes simple and sensible steps that are easy to adopt, which in combination with solid baselines and comparative results, could substantially improve the overall rigour of empirical science in offline MARL moving forward.
- Abstract(参考訳): オフラインマルチエージェント強化学習(MARL)は、現実世界のアプリケーションに大いに期待できる分野である。
残念なことに、オフラインMARLにおける現在の研究状況は、ベースラインと評価プロトコルの不整合に悩まされているため、究極的には、進捗を正確に評価し、新しく提案されたイノベーションを信頼し、研究者が事前の作業を容易に構築することが困難になる。
本稿では,新しいアルゴリズムの性能を計測するための既存の手法の重大な欠点を,オフラインMARLの成果を代表して検討する。
第二に、この先行研究と直接比較することにより、単純で十分に実装されたベースラインが、幅広いタスクにわたって、最先端(SOTA)の結果を達成できることを実証する。
具体的には、前処理で使用される47のデータセットのうち35のデータセット(ほぼ75%)において、現在報告されているSOTAの性能と一致または上回っていることを示す。
興味深いことに、私たちのベースラインは、しばしばこれらのより洗練されたアルゴリズムを大幅に上回っている。
最後に、この前の作業で強調された欠点を、評価のための単純な標準化された方法論を導入し、いくつかのシナリオで統計的に堅牢な結果でベースライン実装を提供することで、将来の作業の比較に役立ちます。
提案手法は, 安定なベースラインと比較結果と組み合わせることで, オフラインMARLにおける経験科学の全体的な厳密さを大幅に改善できる, 単純かつ合理的なステップを含む。
関連論文リスト
- Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。
解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。
本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T14:51:29Z) - Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。
競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。
本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-08T18:23:59Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - How much can change in a year? Revisiting Evaluation in Multi-Agent
Reinforcement Learning [4.653136482223517]
我々は、MARLの出版物にメタデータを組み込むことにより、これまで公表されていた評価手法のデータベースを拡張した。
この更新されたデータベースから抽出した結果と,研究で確認された傾向を比較した。
SMAC-v1は,SMAC-v2に継続することで,新たなアルゴリズム開発が促進される。
論文 参考訳(メタデータ) (2023-12-13T19:06:34Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Towards a Standardised Performance Evaluation Protocol for Cooperative
MARL [2.2977300225306583]
マルチエージェント強化学習(MARL)は,分散型意思決定問題を大規模に解く上で有用な手法である。
本研究は,MARLにおける大規模研究機関にまたがる評価手法に焦点をあてて,この迅速な開発についてより詳しく考察する。
協調型MARLのための標準化された性能評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-09-21T16:40:03Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - MS MARCO: Benchmarking Ranking Models in the Large-Data Regime [57.37239054770001]
本稿では,MS MARCO と TREC Deep Learning Track をケーススタディとして用いた。
評価の取り組みの設計が、特定の成果を奨励または阻止する方法を示します。
我々は、ある種の落とし穴の分析と、そのような落とし穴を避けるためのベストプラクティスのステートメントを提供する。
論文 参考訳(メタデータ) (2021-05-09T20:57:36Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。