論文の概要: Retrospective Analysis of the 2019 MineRL Competition on Sample
Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.05012v4
- Date: Thu, 18 Jun 2020 16:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 20:27:06.752101
- Title: Retrospective Analysis of the 2019 MineRL Competition on Sample
Efficient Reinforcement Learning
- Title(参考訳): 実効強化学習におけるMineRLコンペティションの振り返り
- Authors: Stephanie Milani, Nicholay Topin, Brandon Houghton, William H. Guss,
Sharada P. Mohanty, Keisuke Nakata, Oriol Vinyals, Noboru Sean Kuno
- Abstract要約: 我々は,ニューラル情報処理システム(NeurIPS)に関する第3回大会で,人間の事前知識を用いたサンプル効率的な強化学習に関するMineRLコンペティションを開催した。
この競争の第一の目的は、複雑で階層的でスパースな環境を解決するのに必要なサンプルの数を減らし、強化学習と共に人間のデモンストレーションを使用するアルゴリズムの開発を促進することであった。
- 参考スコア(独自算出の注目度): 27.440055101691115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To facilitate research in the direction of sample efficient reinforcement
learning, we held the MineRL Competition on Sample Efficient Reinforcement
Learning Using Human Priors at the Thirty-third Conference on Neural
Information Processing Systems (NeurIPS 2019). The primary goal of this
competition was to promote the development of algorithms that use human
demonstrations alongside reinforcement learning to reduce the number of samples
needed to solve complex, hierarchical, and sparse environments. We describe the
competition, outlining the primary challenge, the competition design, and the
resources that we provided to the participants. We provide an overview of the
top solutions, each of which use deep reinforcement learning and/or imitation
learning. We also discuss the impact of our organizational decisions on the
competition and future directions for improvement.
- Abstract(参考訳): 第33回ニューラル・インフォメーション・プロセッシング・システム(neurips 2019)において、サンプル・効率的な強化学習の方向への研究を容易にするために、人間による事前学習を用いたサンプル・効率的な強化学習に関するミネル・コンペティションを行った。
このコンペの主な目標は、人間によるデモンストレーションと強化学習を併用して、複雑で階層的でスパースな環境を解決するのに必要なサンプル数を減らすアルゴリズムの開発を促進することであった。
コンペティションについて説明し、主要な課題、コンペティションデザイン、そして私たちが参加者に提供したリソースを概説します。
それぞれが深い強化学習および/または模倣学習を使用しているトップソリューションの概要を提供する。
また,組織的意思決定が競争に与える影響や,今後の改善の方向性についても論じる。
関連論文リスト
- Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition [52.2034494666179]
スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。
本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
論文 参考訳(メタデータ) (2024-02-04T15:17:09Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - Lessons learned from the NeurIPS 2021 MetaDL challenge: Backbone
fine-tuning without episodic meta-learning dominates for few-shot learning
image classification [40.901760230639496]
本稿では,MetaDLコンペティションシリーズの設計,データセット,最良の実験結果,NeurIPS 2021チャレンジにおける最上位の手法について述べる。
トップ参加者のソリューションがオープンソース化された。
論文 参考訳(メタデータ) (2022-06-15T10:27:23Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - MineRL Diamond 2021 Competition: Overview, Results, and Lessons Learned [60.11039031794829]
強化学習コンペティションは、特定の問題に対する解決策を開発するための適切なスコープと支援を提供することによって、分野を前進させる。
私たちはMineRL ObtainDiamondコンペティションの第3回MineRL Diamond 2021を開催しました。
この簡単なトラックの参加者はダイヤモンドを得ることができ、難しいトラックの参加者は同じタスクで一般化可能なソリューションを進めた。
論文 参考訳(メタデータ) (2022-02-17T13:37:35Z) - Towards robust and domain agnostic reinforcement learning competitions [12.731614722371376]
強化学習コンペティションは標準研究ベンチマークの基礎を形成している。
それにもかかわらず、ほとんどの課題は、同じ根本的な問題に悩まされている。
本稿では,これらの障壁を克服するアルゴリズムの開発を促進する,競争設計の新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:15:46Z) - The MineRL 2020 Competition on Sample Efficient Reinforcement Learning
using Human Priors [62.9301667732188]
我々は,MineRLコンペティションの第2イテレーションを提案する。
競争の主な目標は、人間のデモンストレーションを効率的に活用できるアルゴリズムの開発を促進することです。
コンペティションは、データセットと環境のペアバージョンが複数提供される2ラウンドで構成されている。
各ラウンドの終わりに、競合他社はコンテナ化された学習アルゴリズムをaicrowdプラットフォームに提出する。
論文 参考訳(メタデータ) (2021-01-26T20:32:30Z) - Sample Efficient Reinforcement Learning through Learning from
Demonstrations in Minecraft [4.3952888284140785]
Minecraftのミニゲーム『ObtainDiamond』において、人間によるデモンストレーションによって、環境相互作用の8Mフレームしか持たないエージェントの最終的なパフォーマンスが向上することを示す。
NeurIPS MineRL Competition for Sample-Efficient Reinforcement Learningの3位にランクインした。
論文 参考訳(メタデータ) (2020-03-12T23:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。