論文の概要: Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback
- arxiv url: http://arxiv.org/abs/2204.07123v1
- Date: Thu, 14 Apr 2022 17:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 14:47:50.389781
- Title: Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback
- Title(参考訳): 人からのフィードバックによる学習に関する2021年玄武岩競技の振り返り
- Authors: Rohin Shah, Steven H. Wang, Cody Wild, Stephanie Milani, Anssi
Kanervisto, Vinicius G. Goecks, Nicholas Waytowich, David Watkins-Valls,
Bharat Prakash, Edmund Mills, Divyansh Garg, Alexander Fries, Alexandra
Souly, Chan Jun Shern, Daniel del Castillo, Tom Lieberum
- Abstract要約: 競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 92.37243979045817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We held the first-ever MineRL Benchmark for Agents that Solve Almost-Lifelike
Tasks (MineRL BASALT) Competition at the Thirty-fifth Conference on Neural
Information Processing Systems (NeurIPS 2021). The goal of the competition was
to promote research towards agents that use learning from human feedback (LfHF)
techniques to solve open-world tasks. Rather than mandating the use of LfHF
techniques, we described four tasks in natural language to be accomplished in
the video game Minecraft, and allowed participants to use any approach they
wanted to build agents that could accomplish the tasks. Teams developed a
diverse range of LfHF algorithms across a variety of possible human feedback
types. The three winning teams implemented significantly different approaches
while achieving similar performance. Interestingly, their approaches performed
well on different tasks, validating our choice of tasks to include in the
competition. While the outcomes validated the design of our competition, we did
not get as many participants and submissions as our sister competition, MineRL
Diamond. We speculate about the causes of this problem and suggest improvements
for future iterations of the competition.
- Abstract(参考訳): 我々は,ニューラル情報処理システムに関する第35回大会(NeurIPS 2021)において,ほぼ生涯的課題(MineRL BASALT)を解決したエージェントのためのMineRLベンチマークを開催した。
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHFテクニックの使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクを説明し、参加者がタスクを達成できるエージェントを構築したいと思うアプローチを使用できるようにした。
チームは様々な人間のフィードバックタイプにまたがって多様なlfhfアルゴリズムを開発した。
3つの勝利チームは、同様のパフォーマンスを達成しながら、かなり異なるアプローチを実践した。
興味深いことに、彼らのアプローチはさまざまなタスクでうまく機能し、競争に参加するタスクの選択を検証しました。
結果がコンペのデザインを立証したが、私たちの姉妹コンペMineRL Diamondほど多くの参加者や応募は得られなかった。
我々は、この問題の原因について推測し、競争の今後のイテレーションの改善を提案する。
関連論文リスト
- Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - Towards Solving Fuzzy Tasks with Human Feedback: A Retrospective of the
MineRL BASALT 2022 Competition [20.922425732605756]
BASALTチャレンジでは、Minecraftの難易度の高い報酬関数でタスクを解くアルゴリズムを開発するために、チームに競うように求めている。
競合について説明し、トップソリューションの概要を提供する。
論文 参考訳(メタデータ) (2023-03-23T17:59:17Z) - MineRL Diamond 2021 Competition: Overview, Results, and Lessons Learned [60.11039031794829]
強化学習コンペティションは、特定の問題に対する解決策を開発するための適切なスコープと支援を提供することによって、分野を前進させる。
私たちはMineRL ObtainDiamondコンペティションの第3回MineRL Diamond 2021を開催しました。
この簡単なトラックの参加者はダイヤモンドを得ることができ、難しいトラックの参加者は同じタスクで一般化可能なソリューションを進めた。
論文 参考訳(メタデータ) (2022-02-17T13:37:35Z) - The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文 参考訳(メタデータ) (2021-07-05T12:18:17Z) - The MineRL 2020 Competition on Sample Efficient Reinforcement Learning
using Human Priors [62.9301667732188]
我々は,MineRLコンペティションの第2イテレーションを提案する。
競争の主な目標は、人間のデモンストレーションを効率的に活用できるアルゴリズムの開発を促進することです。
コンペティションは、データセットと環境のペアバージョンが複数提供される2ラウンドで構成されている。
各ラウンドの終わりに、競合他社はコンテナ化された学習アルゴリズムをaicrowdプラットフォームに提出する。
論文 参考訳(メタデータ) (2021-01-26T20:32:30Z) - Retrospective Analysis of the 2019 MineRL Competition on Sample
Efficient Reinforcement Learning [27.440055101691115]
我々は,ニューラル情報処理システム(NeurIPS)に関する第3回大会で,人間の事前知識を用いたサンプル効率的な強化学習に関するMineRLコンペティションを開催した。
この競争の第一の目的は、複雑で階層的でスパースな環境を解決するのに必要なサンプルの数を減らし、強化学習と共に人間のデモンストレーションを使用するアルゴリズムの開発を促進することであった。
論文 参考訳(メタデータ) (2020-03-10T21:39:52Z) - Analysing Affective Behavior in the First ABAW 2020 Competition [49.90617840789334]
ABAW(Affective Behavior Analysis in-the-Wild) 2020コンペティションは、3つの主要な行動タスクの自動分析を目的とした最初のコンペティションである。
アルゼンチンのブエノスアイレスで2020年5月に開催されたIEEE Face and Gesture Recognitionと共同で開催されるこのコンペティションについて説明する。
評価指標を概説し,ベースラインシステムとトップ3の実施するチームの方法論をチャレンジ毎に提示し,その結果を最終的に提示する。
論文 参考訳(メタデータ) (2020-01-30T15:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。