論文の概要: Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.12001v1
- Date: Wed, 18 Sep 2024 14:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 17:24:06.802325
- Title: Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning
- Title(参考訳): オフラインマルチエージェント強化学習センターにおけるデータ提供
- Authors: Claude Formanek, Louise Beyers, Callum Rhys Tilbury, Jonathan P. Shock, Arnu Pretorius,
- Abstract要約: オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
- 参考スコア(独自算出の注目度): 3.623224034411137
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Offline multi-agent reinforcement learning (MARL) is an exciting direction of research that uses static datasets to find optimal control policies for multi-agent systems. Though the field is by definition data-driven, efforts have thus far neglected data in their drive to achieve state-of-the-art results. We first substantiate this claim by surveying the literature, showing how the majority of works generate their own datasets without consistent methodology and provide sparse information about the characteristics of these datasets. We then show why neglecting the nature of the data is problematic, through salient examples of how tightly algorithmic performance is coupled to the dataset used, necessitating a common foundation for experiments in the field. In response, we take a big step towards improving data usage and data awareness in offline MARL, with three key contributions: (1) a clear guideline for generating novel datasets; (2) a standardisation of over 80 existing datasets, hosted in a publicly available repository, using a consistent storage format and easy-to-use API; and (3) a suite of analysis tools that allow us to understand these datasets better, aiding further development.
- Abstract(参考訳): オフラインマルチエージェント強化学習(英語版)(MARL)は、静的データセットを使用してマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
この主張をまず文献を調査し、一貫した方法論を使わずにいかに多くの作品が独自のデータセットを生成するかを示し、これらのデータセットの特徴について疎密な情報を提供する。
次に、データの性質を無視することが問題となる理由を、アルゴリズム的なパフォーマンスが使われているデータセットとどのように密結合されているかという健全な例を通して示し、この分野における実験の共通基盤を必要としている。
1)新しいデータセットを生成するための明確なガイドライン、(2)公開リポジトリにホストされている80以上の既存のデータセットの標準化、3)一貫性のあるストレージフォーマットと使いやすいAPI、(3)これらのデータセットをよりよく理解し、さらなる開発を支援するための分析ツールのスイートである。
関連論文リスト
- Generating Skyline Datasets for Data Science Models [11.454081868173725]
本稿では,複数のユーザ定義モデルパフォーマンス尺度を最適化することにより,データセットを検出するフレームワークであるMODisを紹介する。
スカイラインデータセットを生成するための3つの実現可能なアルゴリズムを導出する。
スカイラインデータ探索アルゴリズムの有効性と有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-02-16T20:33:59Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。
提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文 参考訳(メタデータ) (2024-10-05T17:11:37Z) - SEGAN: semi-supervised learning approach for missing data imputation [12.552699799009037]
本稿では,セミ教師付き学習に基づくデータ補完モデルSEGANを提案する。
SEGANモデルでは、ジェネレータは、欠落したデータ値を予測する際に、既知のデータとそのラベル情報をよりフルに利用することができる。
本稿では,SEGANモデルがナッシュ平衡に達すると,実データ分布特性を学習できることを理論的に証明する。
論文 参考訳(メタデータ) (2024-05-21T11:42:20Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for
Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。
学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。
提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文 参考訳(メタデータ) (2020-07-13T10:00:44Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。