論文の概要: Towards Solving Fuzzy Tasks with Human Feedback: A Retrospective of the
MineRL BASALT 2022 Competition
- arxiv url: http://arxiv.org/abs/2303.13512v1
- Date: Thu, 23 Mar 2023 17:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 12:45:09.516546
- Title: Towards Solving Fuzzy Tasks with Human Feedback: A Retrospective of the
MineRL BASALT 2022 Competition
- Title(参考訳): 人間フィードバックによるファジィタスクの解決に向けて:MineRL BASALT 2022コンペティションを振り返って
- Authors: Stephanie Milani, Anssi Kanervisto, Karolis Ramanauskas, Sander
Schulhoff, Brandon Houghton, Sharada Mohanty, Byron Galbraith, Ke Chen, Yan
Song, Tianze Zhou, Bingquan Yu, He Liu, Kai Guan, Yujing Hu, Tangjie Lv,
Federico Malato, Florian Leopold, Amogh Raut, Ville Hautam\"aki, Andrew
Melnik, Shu Ishida, Jo\~ao F. Henriques, Robert Klassert, Walter Laurito,
Ellen Novoseller, Vinicius G. Goecks, Nicholas Waytowich, David Watkins, Josh
Miller, Rohin Shah
- Abstract要約: BASALTチャレンジでは、Minecraftの難易度の高い報酬関数でタスクを解くアルゴリズムを開発するために、チームに競うように求めている。
競合について説明し、トップソリューションの概要を提供する。
- 参考スコア(独自算出の注目度): 20.922425732605756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To facilitate research in the direction of fine-tuning foundation models from
human feedback, we held the MineRL BASALT Competition on Fine-Tuning from Human
Feedback at NeurIPS 2022. The BASALT challenge asks teams to compete to develop
algorithms to solve tasks with hard-to-specify reward functions in Minecraft.
Through this competition, we aimed to promote the development of algorithms
that use human feedback as channels to learn the desired behavior. We describe
the competition and provide an overview of the top solutions. We conclude by
discussing the impact of the competition and future directions for improvement.
- Abstract(参考訳): 人間のフィードバックからファインチューニング基礎モデルの方向性を研究するために,我々はNeurIPS 2022でMineRL BASALT Competition on Fine-Tuning from Human Feedbackを開催した。
BASALTチャレンジでは、Minecraftの難易度の高い報酬関数でタスクを解くアルゴリズムを開発するために、チームに競争するよう求めている。
この競争を通じて,人間のフィードバックをチャネルとして利用して望ましい行動を学ぶアルゴリズムの開発を促進することを目的とした。
競合について説明し、トップソリューションの概要を提供する。
最後に、競争の影響と今後の改善の方向性について論じる。
関連論文リスト
- AI Olympics challenge with Evolutionary Soft Actor Critic [5.076263094490715]
私たちのソリューションは、モデルフリーのDeep Reinforcement Learningアプローチと進化戦略を組み合わせています。
使用済みのアルゴリズムを簡潔に説明し、そのアプローチの詳細を提供する。
論文 参考訳(メタデータ) (2024-09-02T09:34:18Z) - The NeurIPS 2022 Neural MMO Challenge: A Massively Multiagent
Competition with Specialization and Trade [41.639843908635875]
NeurIPS-2022 Neural MMO Challengeには500人が参加し、1,600以上の応募があった。
今年の競技は最新のv1.6 Neural MMOで行われ、新しい装備、戦闘、取引、より良いスコアシステムが導入されている。
本稿では,課題の設計と成果を要約し,学習方法のベンチマークとして,この環境の可能性について考察する。
論文 参考訳(メタデータ) (2023-11-07T04:14:45Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - RangL: A Reinforcement Learning Competition Platform [82.1944886411643]
RangLは、現実世界の動的決定問題に関連する競争を支援することで、強化学習のより広範な普及を促進することを目的としている。
この記事では、RangLチームが開発し、2022 Pathways to Net Zero Challengeにデプロイした再利用可能なコードリポジトリについて説明する。
このチャレンジの勝利の解決策は、2050年までに英国のエネルギー移行政策をゼロ炭素排出量に最適化することである。
論文 参考訳(メタデータ) (2022-07-28T09:44:21Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - MineRL Diamond 2021 Competition: Overview, Results, and Lessons Learned [60.11039031794829]
強化学習コンペティションは、特定の問題に対する解決策を開発するための適切なスコープと支援を提供することによって、分野を前進させる。
私たちはMineRL ObtainDiamondコンペティションの第3回MineRL Diamond 2021を開催しました。
この簡単なトラックの参加者はダイヤモンドを得ることができ、難しいトラックの参加者は同じタスクで一般化可能なソリューションを進めた。
論文 参考訳(メタデータ) (2022-02-17T13:37:35Z) - The MineRL 2020 Competition on Sample Efficient Reinforcement Learning
using Human Priors [62.9301667732188]
我々は,MineRLコンペティションの第2イテレーションを提案する。
競争の主な目標は、人間のデモンストレーションを効率的に活用できるアルゴリズムの開発を促進することです。
コンペティションは、データセットと環境のペアバージョンが複数提供される2ラウンドで構成されている。
各ラウンドの終わりに、競合他社はコンテナ化された学習アルゴリズムをaicrowdプラットフォームに提出する。
論文 参考訳(メタデータ) (2021-01-26T20:32:30Z) - Retrospective Analysis of the 2019 MineRL Competition on Sample
Efficient Reinforcement Learning [27.440055101691115]
我々は,ニューラル情報処理システム(NeurIPS)に関する第3回大会で,人間の事前知識を用いたサンプル効率的な強化学習に関するMineRLコンペティションを開催した。
この競争の第一の目的は、複雑で階層的でスパースな環境を解決するのに必要なサンプルの数を減らし、強化学習と共に人間のデモンストレーションを使用するアルゴリズムの開発を促進することであった。
論文 参考訳(メタデータ) (2020-03-10T21:39:52Z) - Analysing Affective Behavior in the First ABAW 2020 Competition [49.90617840789334]
ABAW(Affective Behavior Analysis in-the-Wild) 2020コンペティションは、3つの主要な行動タスクの自動分析を目的とした最初のコンペティションである。
アルゼンチンのブエノスアイレスで2020年5月に開催されたIEEE Face and Gesture Recognitionと共同で開催されるこのコンペティションについて説明する。
評価指標を概説し,ベースラインシステムとトップ3の実施するチームの方法論をチャレンジ毎に提示し,その結果を最終的に提示する。
論文 参考訳(メタデータ) (2020-01-30T15:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。