論文の概要: The MineRL 2020 Competition on Sample Efficient Reinforcement Learning
using Human Priors
- arxiv url: http://arxiv.org/abs/2101.11071v1
- Date: Tue, 26 Jan 2021 20:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 02:22:27.274363
- Title: The MineRL 2020 Competition on Sample Efficient Reinforcement Learning
using Human Priors
- Title(参考訳): MineRL 2020 Competition on Sample Efficient Reinforcement Learning using Human Priors
- Authors: William H. Guss, Mario Ynocente Castro, Sam Devlin, Brandon Houghton,
Noboru Sean Kuno, Crissman Loomis, Stephanie Milani, Sharada Mohanty, Keisuke
Nakata, Ruslan Salakhutdinov, John Schulman, Shinya Shiroshita, Nicholay
Topin, Avinash Ummadisingu, Oriol Vinyals
- Abstract要約: 我々は,MineRLコンペティションの第2イテレーションを提案する。
競争の主な目標は、人間のデモンストレーションを効率的に活用できるアルゴリズムの開発を促進することです。
コンペティションは、データセットと環境のペアバージョンが複数提供される2ラウンドで構成されている。
各ラウンドの終わりに、競合他社はコンテナ化された学習アルゴリズムをaicrowdプラットフォームに提出する。
- 参考スコア(独自算出の注目度): 62.9301667732188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although deep reinforcement learning has led to breakthroughs in many
difficult domains, these successes have required an ever-increasing number of
samples, affording only a shrinking segment of the AI community access to their
development. Resolution of these limitations requires new, sample-efficient
methods. To facilitate research in this direction, we propose this second
iteration of the MineRL Competition. The primary goal of the competition is to
foster the development of algorithms which can efficiently leverage human
demonstrations to drastically reduce the number of samples needed to solve
complex, hierarchical, and sparse environments. To that end, participants
compete under a limited environment sample-complexity budget to develop systems
which solve the MineRL ObtainDiamond task in Minecraft, a sequential decision
making environment requiring long-term planning, hierarchical control, and
efficient exploration methods. The competition is structured into two rounds in
which competitors are provided several paired versions of the dataset and
environment with different game textures and shaders. At the end of each round,
competitors submit containerized versions of their learning algorithms to the
AIcrowd platform where they are trained from scratch on a hold-out
dataset-environment pair for a total of 4-days on a pre-specified hardware
platform. In this follow-up iteration to the NeurIPS 2019 MineRL Competition,
we implement new features to expand the scale and reach of the competition. In
response to the feedback of the previous participants, we introduce a second
minor track focusing on solutions without access to environment interactions of
any kind except during test-time. Further we aim to prompt domain agnostic
submissions by implementing several novel competition mechanics including
action-space randomization and desemantization of observations and actions.
- Abstract(参考訳): 深い強化学習は多くの困難な領域で突破口をたどったが、これらの成功は、さらに多くのサンプルを必要としており、AIコミュニティが開発にアクセスできる部分の縮小にしかならない。
これらの制限の解決には、新しいサンプル効率の方法が必要である。
この方向の研究を容易にするため,MineRLコンペティションの第2版を提案する。
競争の主な目標は、人間のデモンストレーションを効率的に活用し、複雑で階層的でスパースな環境を解決するために必要なサンプルの数を大幅に削減できるアルゴリズムの開発を促進することです。
そのために、参加者は、マインクラフトのMineRL ObtainDiamondタスク、長期計画、階層的制御、効率的な探索方法を必要とする連続的な意思決定環境を解決するシステムを開発するために、限られた環境のサンプルコンプレックス予算の下で競争します。
コンペティションは2ラウンドに分かれており、競技者は異なるゲームテクスチャとシェーダーを備えたデータセットと環境のペアバージョンを複数用意されている。
各ラウンドの最後に、競合他社は自身の学習アルゴリズムのコンテナ化バージョンをAIcrowdプラットフォームに送信し、事前に特定されたハードウェアプラットフォーム上で、合計4日間のデータセット環境ペアをスクラッチからトレーニングする。
このNeurIPS 2019 MineRLコンペティションのフォローアップイテレーションでは、競技の規模と到達範囲を拡大するための新機能を実装しています。
これまでの参加者のフィードバックに応えて,テスト時間以外の環境相互作用にアクセスできないソリューションに焦点を当てた,第2のマイナートラックを紹介した。
さらに,行動空間のランダム化や観測や行動のデママント化など,いくつかの新しい競争機構を実装することで,ドメイン非依存の提出を促すことを目的とする。
関連論文リスト
- Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - DIAMBRA Arena: a New Reinforcement Learning Platform for Research and
Experimentation [91.3755431537592]
本研究は、強化学習研究と実験のための新しいプラットフォームであるDIAMBRA Arenaを提示する。
高品質な環境のコレクションが,OpenAI Gym標準に完全に準拠したPython APIを公開している。
これらは、離散的なアクションと観測を生のピクセルと追加の数値で構成したエピソディックなタスクである。
論文 参考訳(メタデータ) (2022-10-19T14:39:10Z) - Lessons learned from the NeurIPS 2021 MetaDL challenge: Backbone
fine-tuning without episodic meta-learning dominates for few-shot learning
image classification [40.901760230639496]
本稿では,MetaDLコンペティションシリーズの設計,データセット,最良の実験結果,NeurIPS 2021チャレンジにおける最上位の手法について述べる。
トップ参加者のソリューションがオープンソース化された。
論文 参考訳(メタデータ) (2022-06-15T10:27:23Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - MineRL Diamond 2021 Competition: Overview, Results, and Lessons Learned [60.11039031794829]
強化学習コンペティションは、特定の問題に対する解決策を開発するための適切なスコープと支援を提供することによって、分野を前進させる。
私たちはMineRL ObtainDiamondコンペティションの第3回MineRL Diamond 2021を開催しました。
この簡単なトラックの参加者はダイヤモンドを得ることができ、難しいトラックの参加者は同じタスクで一般化可能なソリューションを進めた。
論文 参考訳(メタデータ) (2022-02-17T13:37:35Z) - SEIHAI: A Sample-efficient Hierarchical AI for the MineRL Competition [32.635756704572266]
我々は,ヒトのデモンストレーションとタスク構造を利用したtextbfSample-textbfefftextbficient textbfHierarchical textbfAIを提案する。
具体的には,タスクを複数の逐次依存サブタスクに分割し,強化学習と模倣学習を用いて各サブタスクに適したエージェントを訓練する。
シーハイはNeurIPS-2020 MineRLコンペティションの序盤と決勝戦で優勝した。
論文 参考訳(メタデータ) (2021-11-17T01:36:40Z) - Towards robust and domain agnostic reinforcement learning competitions [12.731614722371376]
強化学習コンペティションは標準研究ベンチマークの基礎を形成している。
それにもかかわらず、ほとんどの課題は、同じ根本的な問題に悩まされている。
本稿では,これらの障壁を克服するアルゴリズムの開発を促進する,競争設計の新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:15:46Z) - Retrospective Analysis of the 2019 MineRL Competition on Sample
Efficient Reinforcement Learning [27.440055101691115]
我々は,ニューラル情報処理システム(NeurIPS)に関する第3回大会で,人間の事前知識を用いたサンプル効率的な強化学習に関するMineRLコンペティションを開催した。
この競争の第一の目的は、複雑で階層的でスパースな環境を解決するのに必要なサンプルの数を減らし、強化学習と共に人間のデモンストレーションを使用するアルゴリズムの開発を促進することであった。
論文 参考訳(メタデータ) (2020-03-10T21:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。