論文の概要: XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.08973v1
- Date: Thu, 13 Jun 2024 10:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:34:37.177317
- Title: XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning
- Title(参考訳): XLand-100B: インコンテキスト強化学習のための大規模マルチタスクデータセット
- Authors: Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov,
- Abstract要約: 我々は,XLand-MiniGrid環境に基づくテキスト内強化学習のための大規模データセットである textbfXLand-100B を提案する。
これには3万ドル近い異なるタスクのための完全な学習履歴が含まれ、100ドルBの移行と2.5ドルBのエピソードをカバーしている。
- 参考スコア(独自算出の注目度): 44.084458075924736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following the success of the in-context learning paradigm in large-scale language and computer vision models, the recently emerging field of in-context reinforcement learning is experiencing a rapid growth. However, its development has been held back by the lack of challenging benchmarks, as all the experiments have been carried out in simple environments and on small-scale datasets. We present \textbf{XLand-100B}, a large-scale dataset for in-context reinforcement learning based on the XLand-MiniGrid environment, as a first step to alleviate this problem. It contains complete learning histories for nearly $30,000$ different tasks, covering $100$B transitions and $2.5$B episodes. It took $50,000$ GPU hours to collect the dataset, which is beyond the reach of most academic labs. Along with the dataset, we provide the utilities to reproduce or expand it even further. With this substantial effort, we aim to democratize research in the rapidly growing field of in-context reinforcement learning and provide a solid foundation for further scaling. The code is open-source and available under Apache 2.0 licence at https://github.com/dunno-lab/xland-minigrid-datasets.
- Abstract(参考訳): 大規模言語およびコンピュータビジョンモデルにおけるコンテキスト内学習パラダイムの成功に続き、近年、コンテキスト内強化学習の分野が急速に成長している。
しかしながら、その開発は、単純な環境や小規模なデータセットですべての実験が行われたため、挑戦的なベンチマークの欠如によって妨げられている。
この問題を解決する第一歩として,XLand-MiniGrid環境に基づく大規模コンテキスト強化学習用データセットである \textbf{XLand-100B} を提案する。
これには3万ドル近い異なるタスクのための完全な学習履歴が含まれ、100ドルBの移行と2.5ドルBのエピソードをカバーしている。
データセットの収集には5万ドルを要した。
データセットとともに、さらにそれを再生または拡張するためのユーティリティを提供します。
この大きな取り組みにより、急速に成長するインコンテキスト強化学習分野の研究を民主化し、さらなるスケーリングのための確かな基盤を提供することを目指している。
コードはオープンソースで,Apache 2.0ライセンス下でhttps://github.com/dunno-lab/xland-minigrid-datasetsで公開されている。
関連論文リスト
- Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV [50.616892315086574]
本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。
我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
論文 参考訳(メタデータ) (2024-03-03T17:29:03Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - Towards Federated Foundation Models: Scalable Dataset Pipelines for
Group-Structured Learning [11.205441416962284]
大規模なグループ構造化データセットを作成するためのライブラリであるデータセットグルーパーを紹介する。
基礎モデルのスケールでの連合学習シミュレーションを可能にする。
論文 参考訳(メタデータ) (2023-07-18T20:27:45Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - Hopular: Modern Hopfield Networks for Tabular Data [5.470026407471584]
中小データセットのための新しいディープラーニングアーキテクチャである"Hopular"を提案する。
Hopularは格納されたデータを使用して、フィーチャー機能、フィーチャーターゲット、サンプルサンプル依存関係を識別する。
1,000サンプル未満の小さなデータセットの実験では、HopularはGradient Boosting、Random Forests、SVM、特にいくつかのDeep Learningメソッドを超越している。
論文 参考訳(メタデータ) (2022-06-01T17:57:44Z) - ZeroVL: A Strong Baseline for Aligning Vision-Language Representations
with Limited Resources [13.30815073857842]
我々は、限られたリソースでデュアルエンコーダのマルチモーダル表現アライメントを行うための総合的なトレーニングガイダンスを提供する。
事前学習のために1億のWebデータを収集し、最先端の手法に匹敵する、あるいは優れた結果を得る。
私たちのコードと事前訓練されたモデルは、研究コミュニティを促進するためにリリースされます。
論文 参考訳(メタデータ) (2021-12-17T05:40:28Z) - OpenFWI: Large-Scale Multi-Structural Benchmark Datasets for Seismic
Full Waveform Inversion [16.117689670474142]
フルウェーブフォーム・インバージョン(FWI)は、地震データから高分解能速度マップを再構成するために地球物理学で広く用いられている。
データ駆動型FWI手法の最近の成功は、地球物理学のコミュニティにサービスを提供するためのオープンデータセットの需要が急速に増加した結果である。
大規模マルチ構造化ベンチマークデータセットの集合であるOpenFWIを提案する。
論文 参考訳(メタデータ) (2021-11-04T15:03:40Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Unravelling Small Sample Size Problems in the Deep Learning World [69.82853912238173]
筆者らはまず,アルゴリズムが動作空間に応じて分離される小さなサンプルサイズ問題に対するディープラーニングアルゴリズムのレビューを行う。
第2に,特徴マップの最も識別性の高い部分からグローバル情報を抽出することに焦点を当てた動的注意プーリング手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T13:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。