論文の概要: Off-the-Grid MARL: Datasets with Baselines for Offline Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.00521v2
- Date: Fri, 22 Sep 2023 19:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 04:01:15.982512
- Title: Off-the-Grid MARL: Datasets with Baselines for Offline Multi-Agent
Reinforcement Learning
- Title(参考訳): Off-the-Grid MARL:オフラインマルチエージェント強化学習のためのベースライン付きデータセット
- Authors: Claude Formanek, Asad Jeewa, Jonathan Shock, Arnu Pretorius
- Abstract要約: オフラインマルチエージェント強化学習(MARL)は、このようなデータセットから効果的な分散型コントローラを構築するための有望なパラダイムを提供する。
MARLはまだ初期段階であり、標準化されたベンチマークデータセットとベースラインがない。
OG-MARLは、協調的なオフラインMARL研究のためのベースラインを持つ高品質データセットのリポジトリである。
- 参考スコア(独自算出の注目度): 4.159549932951023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Being able to harness the power of large datasets for developing cooperative
multi-agent controllers promises to unlock enormous value for real-world
applications. Many important industrial systems are multi-agent in nature and
are difficult to model using bespoke simulators. However, in industry,
distributed processes can often be recorded during operation, and large
quantities of demonstrative data stored. Offline multi-agent reinforcement
learning (MARL) provides a promising paradigm for building effective
decentralised controllers from such datasets. However, offline MARL is still in
its infancy and therefore lacks standardised benchmark datasets and baselines
typically found in more mature subfields of reinforcement learning (RL). These
deficiencies make it difficult for the community to sensibly measure progress.
In this work, we aim to fill this gap by releasing off-the-grid MARL (OG-MARL):
a growing repository of high-quality datasets with baselines for cooperative
offline MARL research. Our datasets provide settings that are characteristic of
real-world systems, including complex environment dynamics, heterogeneous
agents, non-stationarity, many agents, partial observability, suboptimality,
sparse rewards and demonstrated coordination. For each setting, we provide a
range of different dataset types (e.g. Good, Medium, Poor, and Replay) and
profile the composition of experiences for each dataset. We hope that OG-MARL
will serve the community as a reliable source of datasets and help drive
progress, while also providing an accessible entry point for researchers new to
the field.
- Abstract(参考訳): 協調型マルチエージェントコントローラの開発に大規模なデータセットのパワーを活用できることは、現実世界のアプリケーションに巨大な価値を開放することを約束する。
多くの重要な産業システムは、本質的にマルチエージェントであり、bespokeシミュレータを用いたモデリングは困難である。
しかし、産業では、分散プロセスは操作中に記録され、大量の実証データが保存される。
オフラインマルチエージェント強化学習(MARL)は、このようなデータセットから効率的な分散型コントローラを構築するための有望なパラダイムを提供する。
しかし、オフラインMARLはまだ初期段階であり、標準ベンチマークデータセットやベースラインが欠如しているため、強化学習(RL)のより成熟したサブフィールドで一般的に見られる。
これらの欠陥は、コミュニティが進捗を賢明に測定することを難しくする。
本研究は,協調的なオフラインMARL研究のためのベースラインを備えた高品質データセットのリポジトリであるOG-MARL(OG-MARL)をリリースすることによって,このギャップを埋めることを目指している。
私たちのデータセットは、複雑な環境ダイナミクス、異種エージェント、非定常性、多数のエージェント、部分的可観測性、サブオプティリティ、スパース報酬、デモされたコーディネーションなど、現実世界のシステム特有の設定を提供します。
各設定では、さまざまなデータセットタイプ(例えば、グッド、ミディアム、プア、リプレイ)を提供し、各データセットのエクスペリエンスの構成をプロファイルします。
私たちは、OG-MARLがデータセットの信頼できるソースとしてコミュニティに役立ち、進歩を促進するとともに、研究者がこの分野に新たに参入するためのアクセス可能なエントリポイントを提供することを期待しています。
関連論文リスト
- Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文 参考訳(メタデータ) (2025-01-17T17:51:22Z) - ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - MABL: Bi-Level Latent-Variable World Model for Sample-Efficient
Multi-Agent Reinforcement Learning [43.30657890400801]
本稿では,2レベル潜在変数世界モデルを高次元入力から学習するモデルベースMARLアルゴリズムMABLを提案する。
各エージェントについて、MABLは、上位レベルにおけるグローバル潜伏状態を学び、下位レベルにおけるエージェント潜伏状態の学習を知らせるために使用される。
MaBLは、サンプル効率と全体的な性能の両方において、SOTAのマルチエージェント潜在変数世界モデルを上回っている。
論文 参考訳(メタデータ) (2023-04-12T17:46:23Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。