論文の概要: Sample Efficient Reinforcement Learning through Learning from
Demonstrations in Minecraft
- arxiv url: http://arxiv.org/abs/2003.06066v1
- Date: Thu, 12 Mar 2020 23:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 13:54:18.583651
- Title: Sample Efficient Reinforcement Learning through Learning from
Demonstrations in Minecraft
- Title(参考訳): マインクラフトにおける実演からの学習を通した効率的な強化学習のサンプル
- Authors: Christian Scheller, Yanick Schraner and Manfred Vogel
- Abstract要約: Minecraftのミニゲーム『ObtainDiamond』において、人間によるデモンストレーションによって、環境相互作用の8Mフレームしか持たないエージェントの最終的なパフォーマンスが向上することを示す。
NeurIPS MineRL Competition for Sample-Efficient Reinforcement Learningの3位にランクインした。
- 参考スコア(独自算出の注目度): 4.3952888284140785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sample inefficiency of deep reinforcement learning methods is a major
obstacle for their use in real-world applications. In this work, we show how
human demonstrations can improve final performance of agents on the Minecraft
minigame ObtainDiamond with only 8M frames of environment interaction. We
propose a training procedure where policy networks are first trained on human
data and later fine-tuned by reinforcement learning. Using a policy
exploitation mechanism, experience replay and an additional loss against
catastrophic forgetting, our best agent was able to achieve a mean score of 48.
Our proposed solution placed 3rd in the NeurIPS MineRL Competition for
Sample-Efficient Reinforcement Learning.
- Abstract(参考訳): 深層強化学習手法のサンプル非効率性は, 実世界の応用において大きな障害となる。
本研究では, Minecraftのミニゲーム『ObtainDiamond』において, 環境相互作用のたった8Mフレームで人間によるデモンストレーションがエージェントの最終的なパフォーマンスを改善する方法を示す。
本稿では,まず政策ネットワークを人間データに基づいてトレーニングし,その後強化学習によって微調整した学習手順を提案する。
また, 政策評価機構, 経験再現, 破滅的忘れに対する追加の損失を用いて, ベストエージェントは平均48。
提案手法は,NeurIPS MineRL Competition for Sample-Efficient Reinforcement Learningで3位となった。
関連論文リスト
- "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - Accelerating Self-Imitation Learning from Demonstrations via Policy
Constraints and Q-Ensemble [6.861783783234304]
本稿では,A-SILfDという実演法から学ぶことを提案する。
A-SILfDは専門家のデモンストレーションをエージェントの成功経験として扱い、政策改善を制約するために経験を使用する。
4つのMujoco連続制御タスクにおいて、A-SILfDはオンライントレーニングの15万ステップの後に、ベースラインメソッドを大幅に上回ることができる。
論文 参考訳(メタデータ) (2022-12-07T10:29:13Z) - Minimizing Human Assistance: Augmenting a Single Demonstration for Deep
Reinforcement Learning [0.0]
簡単なバーチャルリアリティーシミュレーションによって収集された1つの人間の例を用いて、RLトレーニングを支援する。
提案手法は,人間的なデモを多数生成するために,1つのデモを増強する。
人間の例から学ぶにもかかわらず、エージェントは人間レベルのパフォーマンスに制約されない。
論文 参考訳(メタデータ) (2022-09-22T19:04:43Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Perceiving the World: Question-guided Reinforcement Learning for
Text-based Games [64.11746320061965]
本稿では,環境に関する質問に答えることで,タスクやプーンアクションを自動的に分解する世界認識モジュールを提案する。
次に、強化学習から言語学習を分離する2段階学習フレームワークを提案し、サンプル効率をさらに向上させる。
論文 参考訳(メタデータ) (2022-03-20T04:23:57Z) - Mixing Human Demonstrations with Self-Exploration in Experience Replay
for Deep Reinforcement Learning [2.8783296093434148]
本稿では,Deep Reinforcement Learning におけるリプレイバッファにおける人間の実演データの利用効果について検討する。
その結果、純粋な自己探索と純粋な実演によって訓練されたエージェントは同様の成功率を示したが、純粋な実演モデルはより少ないステップ数で解に収束したことが示唆された。
論文 参考訳(メタデータ) (2021-07-14T16:55:30Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。