論文の概要: XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.08973v3
- Date: Sat, 01 Mar 2025 09:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:11:40.598233
- Title: XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning
- Title(参考訳): XLand-100B: インコンテキスト強化学習のための大規模マルチタスクデータセット
- Authors: Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Vladislav Kurenkov,
- Abstract要約: 我々は,XLand-MiniGrid環境に基づくテキスト内強化学習のための大規模データセットであるXLand-100Bを提案する。
これには3万ドル近いさまざまなタスクのための完全な学習履歴が含まれており、100ドルの移行と2.5億ドルのエピソードをカバーしている。
データセットの収集には5万時間のGPUが必要だった。
- 参考スコア(独自算出の注目度): 44.97723804371083
- License:
- Abstract: Following the success of the in-context learning paradigm in large-scale language and computer vision models, the recently emerging field of in-context reinforcement learning is experiencing a rapid growth. However, its development has been held back by the lack of challenging benchmarks, as all the experiments have been carried out in simple environments and on small-scale datasets. We present XLand-100B, a large-scale dataset for in-context reinforcement learning based on the XLand-MiniGrid environment, as a first step to alleviate this problem. It contains complete learning histories for nearly $30,000$ different tasks, covering $100$B transitions and 2.5B episodes. It took 50,000 GPU hours to collect the dataset, which is beyond the reach of most academic labs. Along with the dataset, we provide the utilities to reproduce or expand it even further. We also benchmark common in-context RL baselines and show that they struggle to generalize to novel and diverse tasks. With this substantial effort, we aim to democratize research in the rapidly growing field of in-context reinforcement learning and provide a solid foundation for further scaling.
- Abstract(参考訳): 大規模言語およびコンピュータビジョンモデルにおけるコンテキスト内学習パラダイムの成功に続き、近年、コンテキスト内強化学習の分野が急速に成長している。
しかしながら、その開発は、単純な環境や小規模なデータセットですべての実験が行われたため、挑戦的なベンチマークの欠如によって妨げられている。
本稿では,XLand-MiniGrid環境をベースとした大規模コンテクスト強化学習データセットであるXLand-100Bについて,この問題を緩和するための第一歩として紹介する。
これには3万ドル近いさまざまなタスクのための完全な学習履歴が含まれており、100ドルの移行と2.5億ドルのエピソードをカバーしている。
データセットの収集には5万時間のGPUが必要だった。
データセットとともに、さらにそれを再生または拡張するためのユーティリティを提供します。
また、一般的なコンテキスト内RLベースラインのベンチマークを行い、新しい多様なタスクへの一般化に苦慮していることを示す。
この大きな取り組みにより、急速に成長するインコンテキスト強化学習分野の研究を民主化し、さらなるスケーリングのための確かな基盤を提供することを目指している。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Plain-Det: A Plain Multi-Dataset Object Detector [22.848784430833835]
Plain-Detは、新しいデータセットに対応する柔軟性、さまざまなデータセットのパフォーマンス、トレーニング効率を提供する。
13の下流データセットに対して広範な実験を行い、Plain-Detは強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-07-14T05:18:06Z) - ViLCo-Bench: VIdeo Language COntinual learning Benchmark [8.660555226687098]
ビデオテキストタスクの連続学習モデルを評価するために設計されたViLCo-Benchを提案する。
データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。
本稿では,自己教師付き学習を取り入れ,長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T00:38:19Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Extended Agriculture-Vision: An Extension of a Large Aerial Image
Dataset for Agricultural Pattern Analysis [11.133807938044804]
農業ビジョンデータセットの改良版(Chiu et al., 2020b)をリリースする。
このデータセットは,3600大,高解像度(10cm/ピクセル),フルフィールド,赤緑色,近赤外画像の事前トレーニングにより拡張する。
下流分類とセマンティックセグメンテーションの両タスクにおいて、異なるコントラスト学習アプローチをベンチマークすることで、このデータの有用性を実証する。
論文 参考訳(メタデータ) (2023-03-04T17:35:24Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - ZeroVL: A Strong Baseline for Aligning Vision-Language Representations
with Limited Resources [13.30815073857842]
我々は、限られたリソースでデュアルエンコーダのマルチモーダル表現アライメントを行うための総合的なトレーニングガイダンスを提供する。
事前学習のために1億のWebデータを収集し、最先端の手法に匹敵する、あるいは優れた結果を得る。
私たちのコードと事前訓練されたモデルは、研究コミュニティを促進するためにリリースされます。
論文 参考訳(メタデータ) (2021-12-17T05:40:28Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。