論文の概要: BEDD: The MineRL BASALT Evaluation and Demonstrations Dataset for
Training and Benchmarking Agents that Solve Fuzzy Tasks
- arxiv url: http://arxiv.org/abs/2312.02405v1
- Date: Tue, 5 Dec 2023 00:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:13:53.965080
- Title: BEDD: The MineRL BASALT Evaluation and Demonstrations Dataset for
Training and Benchmarking Agents that Solve Fuzzy Tasks
- Title(参考訳): BEDD:ファジィタスクを解く訓練・ベンチマークエージェントのためのMineRL BASALT評価と実証データセット
- Authors: Stephanie Milani, Anssi Kanervisto, Karolis Ramanauskas, Sander
Schulhoff, Brandon Houghton, Rohin Shah
- Abstract要約: BASALT Evaluation and Demonstrationsデータセットを通じて、コミュニティにベンチマークを提供します。
BEDDは、MinecraftでBASALTタスクを完了した約14,000人のプレイヤーのビデオから、2600万のイメージアクションペアを集めている。
また、人的およびアルゴリズム的なエージェントに対する3,000以上の密集した人間的評価も含まれている。
- 参考スコア(独自算出の注目度): 9.353176524993174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The MineRL BASALT competition has served to catalyze advances in learning
from human feedback through four hard-to-specify tasks in Minecraft, such as
create and photograph a waterfall. Given the completion of two years of BASALT
competitions, we offer to the community a formalized benchmark through the
BASALT Evaluation and Demonstrations Dataset (BEDD), which serves as a resource
for algorithm development and performance assessment. BEDD consists of a
collection of 26 million image-action pairs from nearly 14,000 videos of human
players completing the BASALT tasks in Minecraft. It also includes over 3,000
dense pairwise human evaluations of human and algorithmic agents. These
comparisons serve as a fixed, preliminary leaderboard for evaluating
newly-developed algorithms. To enable this comparison, we present a streamlined
codebase for benchmarking new algorithms against the leaderboard. In addition
to presenting these datasets, we conduct a detailed analysis of the data from
both datasets to guide algorithm development and evaluation. The released code
and data are available at https://github.com/minerllabs/basalt-benchmark .
- Abstract(参考訳): MineRL BASALTコンペティションは、マインクラフトの4つの難しいタスク(滝の作成や撮影など)を通じて、人間のフィードバックから学習の進歩を触媒する役割を果たしている。
BASALTコンペティションの2年間を振り返って、我々はBASALT Evaluation and Demonstrations Dataset (BEDD) を通じて、アルゴリズム開発と性能評価のリソースとなる公式なベンチマークをコミュニティに提供する。
BEDDは、MinecraftでBASALTタスクを完了した約14,000人のプレイヤーのビデオから、2600万のイメージアクションペアを集めている。
また、3000以上の密集した人間による人間とアルゴリズムのエージェントの評価も含んでいる。
これらの比較は、新しく開発されたアルゴリズムを評価するための固定された予備的なリーダーボードとして機能する。
この比較を可能にするために、新しいアルゴリズムをリーダーボードに対してベンチマークするための合理化されたコードベースを提案する。
これらのデータセットの提示に加えて,両データセットからのデータの詳細な分析を行い,アルゴリズムの開発と評価の指導を行う。
リリースされたコードとデータはhttps://github.com/minerllabs/basalt-benchmarkで入手できる。
関連論文リスト
- BADM: Batch ADMM for Deep Learning [35.39258144247444]
勾配降下に基づくアルゴリズムはディープニューラルネットワークのトレーニングに広く用いられているが、しばしば収束が遅い。
我々は、乗算器の交互方向法(ADMM)の枠組みを利用して、バッチADMM(Batch ADMM)と呼ばれる新しいデータ駆動アルゴリズムを開発する。
我々は,グラフモデリング,コンピュータビジョン,画像生成,自然言語処理など,さまざまなディープラーニングタスクにおけるBADMの性能を評価する。
論文 参考訳(メタデータ) (2024-06-30T20:47:15Z) - LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - Benchmarking Neural Network Training Algorithms [46.39165332979669]
トレーニングアルゴリズムは、ディープラーニングパイプラインに不可欠な部分です。
コミュニティとして、トレーニングアルゴリズムの改善を確実に特定することはできない。
固定ハードウェア上で実行される複数のワークロードを使用した,新たな,競争力のある,時間と時間のベンチマークを導入する。
論文 参考訳(メタデータ) (2023-06-12T15:21:02Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - Data Lifecycle Management in Evolving Input Distributions for
Learning-based Aerospace Applications [23.84037777018747]
本稿では,テスト入力のサブセットをラベルに選択することで,モデルを段階的に再学習するフレームワークを提案する。
本フレームワーク内のアルゴリズムは,(1)ミッション寿命を通してのモデル性能と(2)ラベル付けとモデル再訓練に関連する累積コストに基づいて評価される。
論文 参考訳(メタデータ) (2022-09-14T18:15:56Z) - Few-shot Mining of Naturally Occurring Inputs and Outputs [83.3871936721431]
我々は,100個の小さな種子セットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。
モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。
SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-09T05:40:52Z) - Combining Learning from Human Feedback and Knowledge Engineering to
Solve Hierarchical Tasks in Minecraft [1.858151490268935]
我々は2021年のNeurIPS Competition MineRL BASALT Challenge: Learning from Human Feedback in Minecraftで優勝し、最も人間らしいエージェントを受賞したソリューションを提示する。
我々のアプローチは、利用可能な人間の実演データを用いて、ナビゲーションのための模倣学習ポリシーを訓練する。
我々は、このハイブリッドインテリジェンスアプローチを、エンドツーエンドの機械学習と純粋にエンジニアリングされたソリューションの両方と比較し、人間の評価者によって判断される。
論文 参考訳(メタデータ) (2021-12-07T04:12:23Z) - Large-scale Unsupervised Semantic Segmentation [163.3568726730319]
本稿では, 大規模無教師付きセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。
ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-06T15:02:11Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。