論文の概要: Off-the-Grid MARL: a Framework for Dataset Generation with Baselines for
Cooperative Offline Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.00521v1
- Date: Wed, 1 Feb 2023 15:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 12:48:46.411515
- Title: Off-the-Grid MARL: a Framework for Dataset Generation with Baselines for
Cooperative Offline Multi-Agent Reinforcement Learning
- Title(参考訳): Off-the-Grid MARL: 協調オフラインマルチエージェント強化学習のためのベースライン付きデータセット生成フレームワーク
- Authors: Claude Formanek, Asad Jeewa, Jonathan Shock, Arnu Pretorius
- Abstract要約: オフラインマルチエージェント強化学習(MARL)は、静的データセットから効果的なオンラインコントローラを構築するための有望なパラダイムを提供する。
MARLはまだ初期段階であり、標準化されたベンチマーク、ベースライン、評価プロトコルがない。
我々は,このフレームワークを用いて作成した協調オフラインMARLのためのデータセットとベースラインの初期セットと,標準化された評価プロトコルをリリースする。
- 参考スコア(独自算出の注目度): 3.3123015934217834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being able to harness the power of large, static datasets for developing
autonomous multi-agent systems could unlock enormous value for real-world
applications. Many important industrial systems are multi-agent in nature and
are difficult to model using bespoke simulators. However, in industry,
distributed system processes can often be recorded during operation, and large
quantities of demonstrative data can be stored. Offline multi-agent
reinforcement learning (MARL) provides a promising paradigm for building
effective online controllers from static datasets. However, offline MARL is
still in its infancy, and, therefore, lacks standardised benchmarks, baselines
and evaluation protocols typically found in more mature subfields of RL. This
deficiency makes it difficult for the community to sensibly measure progress.
In this work, we aim to fill this gap by releasing \emph{off-the-grid MARL
(OG-MARL)}: a framework for generating offline MARL datasets and algorithms. We
release an initial set of datasets and baselines for cooperative offline MARL,
created using the framework, along with a standardised evaluation protocol. Our
datasets provide settings that are characteristic of real-world systems,
including complex dynamics, non-stationarity, partial observability,
suboptimality and sparse rewards, and are generated from popular online MARL
benchmarks. We hope that OG-MARL will serve the community and help steer
progress in offline MARL, while also providing an easy entry point for
researchers new to the field.
- Abstract(参考訳): 自律的なマルチエージェントシステムを開発するために、大規模で静的なデータセットのパワーを活用できることは、現実世界のアプリケーションにとって巨大な価値を解き放つ可能性がある。
多くの重要な産業システムは、本質的にマルチエージェントであり、bespokeシミュレータを用いたモデリングは困難である。
しかし、産業においては、分散システムプロセスは運用中に記録され、大量の実証データを格納することができる。
オフラインマルチエージェント強化学習(MARL)は、静的データセットから効果的なオンラインコントローラを構築するための有望なパラダイムを提供する。
しかし、オフラインMARLはまだ初期段階であり、RLのより成熟したサブフィールドで一般的に見られる標準ベンチマーク、ベースライン、評価プロトコルが欠けている。
この不足は、コミュニティがセンシティブに進捗を測定するのを難しくする。
本研究では,オフラインMARLデータセットとアルゴリズムを生成するフレームワークである \emph{off-the-grid MARL (OG-MARL)} をリリースすることによって,このギャップを埋めることを目指している。
我々は,このフレームワークを用いて作成した協調オフラインMARLのためのデータセットとベースラインの初期セットと,標準化された評価プロトコルをリリースする。
私たちのデータセットは、複雑なダイナミクス、非定常性、部分的可観測性、サブオプティリティ、スパース報酬など、現実世界のシステム特有の設定を提供し、人気のあるオンラインmarlベンチマークから生成します。
我々は、OG-MARLがコミュニティに役立ち、オフラインMARLの進歩を後押しし、また、研究者がこの分野に新たに参入するための簡単なエントリポイントを提供することを期待している。
関連論文リスト
- ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - MABL: Bi-Level Latent-Variable World Model for Sample-Efficient
Multi-Agent Reinforcement Learning [43.30657890400801]
本稿では,2レベル潜在変数世界モデルを高次元入力から学習するモデルベースMARLアルゴリズムMABLを提案する。
各エージェントについて、MABLは、上位レベルにおけるグローバル潜伏状態を学び、下位レベルにおけるエージェント潜伏状態の学習を知らせるために使用される。
MaBLは、サンプル効率と全体的な性能の両方において、SOTAのマルチエージェント潜在変数世界モデルを上回っている。
論文 参考訳(メタデータ) (2023-04-12T17:46:23Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Collaborative Visual Navigation [69.20264563368762]
マルチエージェント視覚ナビゲーション(MAVN)のための大規模3次元データセットCollaVNを提案する。
様々なMAVN変種を探索し、この問題をより一般化する。
メモリ拡張通信フレームワークを提案する。各エージェントには、通信情報を永続的に保存するプライベートな外部メモリが備わっている。
論文 参考訳(メタデータ) (2021-07-02T15:48:16Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。