論文の概要: Playing Minecraft with Behavioural Cloning
- arxiv url: http://arxiv.org/abs/2005.03374v1
- Date: Thu, 7 May 2020 10:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 22:41:16.589883
- Title: Playing Minecraft with Behavioural Cloning
- Title(参考訳): ビヘイビアクローンでMinecraftをプレイする
- Authors: Anssi Kanervisto, Janne Karttunen, Ville Hautam\"aki
- Abstract要約: MineRL 2019は参加者に対して、Minecraftをプレイするためにサンプル効率のよいエージェントをトレーニングするよう呼びかけた。
我々は,人間のプレイヤーがどのような行動をとるかを予測することによって,行動的クローン化によってこの課題にアプローチした。
トレーニングの中止時期によって,このような手法の性能は著しく異なることが観察された。
- 参考スコア(独自算出の注目度): 8.183769974301995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MineRL 2019 competition challenged participants to train sample-efficient
agents to play Minecraft, by using a dataset of human gameplay and a limit
number of steps the environment. We approached this task with behavioural
cloning by predicting what actions human players would take, and reached fifth
place in the final ranking. Despite being a simple algorithm, we observed the
performance of such an approach can vary significantly, based on when the
training is stopped. In this paper, we detail our submission to the
competition, run further experiments to study how performance varied over
training and study how different engineering decisions affected these results.
- Abstract(参考訳): MineRL 2019コンペティションでは、人間のゲームプレイのデータセットと環境の制限されたステップ数を使用して、Minecraftをプレイするサンプル効率のエージェントをトレーニングする参加者に挑戦した。
我々は、人間の行動を予測することによって、この課題にアプローチし、最終ランキングで5位に達した。
単純なアルゴリズムであるにもかかわらず、トレーニングの停止時間に基づいて、そのようなアプローチの性能は著しく変化する。
本稿では,本コンペティションへの応募について詳述し,トレーニングによってパフォーマンスがどう変化したか,エンジニアリングの異なる決定がこれらの結果に与える影響について検討する。
関連論文リスト
- Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge [93.4434417387526]
ロボット工学における鍵となるベンチマークタスクとして,Open Vocabulary Mobile Manipulationを提案する。
我々は,この課題に対する解決策を評価するために,シミュレーションと実世界のコンポーネントを兼ね備えたNeurIPS 2023コンペティションを組織した。
シミュレーションと実環境設定の両方で使用される結果と方法論を詳述する。
論文 参考訳(メタデータ) (2024-07-09T15:15:01Z) - Behavioural Cloning in VizDoom [1.4999444543328293]
本稿では,Imitation Learning (IL) による自律エージェントのゲーム「Doom 2」の学習方法について述べる。
また,Reinforcement Learning (RL) がカメラの動きと軌跡データを比較することで,人間性に対するILとの比較を行う。
論文 参考訳(メタデータ) (2024-01-08T16:15:43Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - The MineRL 2020 Competition on Sample Efficient Reinforcement Learning
using Human Priors [62.9301667732188]
我々は,MineRLコンペティションの第2イテレーションを提案する。
競争の主な目標は、人間のデモンストレーションを効率的に活用できるアルゴリズムの開発を促進することです。
コンペティションは、データセットと環境のペアバージョンが複数提供される2ラウンドで構成されている。
各ラウンドの終わりに、競合他社はコンテナ化された学習アルゴリズムをaicrowdプラットフォームに提出する。
論文 参考訳(メタデータ) (2021-01-26T20:32:30Z) - Incorporating Rivalry in Reinforcement Learning for a Competitive Game [65.2200847818153]
本研究は、競合する社会的影響に基づく新しい学習メカニズムの提供に焦点を当てる。
本研究は,競争競合の概念に基づいて,これらのエージェントの評価を人的視点から変えられるかを検討することを目的とする。
論文 参考訳(メタデータ) (2020-11-02T21:54:18Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Sample Efficient Reinforcement Learning through Learning from
Demonstrations in Minecraft [4.3952888284140785]
Minecraftのミニゲーム『ObtainDiamond』において、人間によるデモンストレーションによって、環境相互作用の8Mフレームしか持たないエージェントの最終的なパフォーマンスが向上することを示す。
NeurIPS MineRL Competition for Sample-Efficient Reinforcement Learningの3位にランクインした。
論文 参考訳(メタデータ) (2020-03-12T23:46:16Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。