論文の概要: Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations
- arxiv url: http://arxiv.org/abs/2006.09939v1
- Date: Wed, 17 Jun 2020 15:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 19:24:26.464107
- Title: Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations
- Title(参考訳): 階層的強化学習における忘れられた経験のリプレイ
- Authors: Alexey Skrynnik, Aleksey Staroverov, Ermek Aitygulov, Kirill Aksenov,
Vasilii Davydov, Aleksandr I. Panov
- Abstract要約: 本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
- 参考スコア(独自算出の注目度): 55.41644538483948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, deep reinforcement learning (RL) shows impressive results in
complex gaming and robotic environments. Often these results are achieved at
the expense of huge computational costs and require an incredible number of
episodes of interaction between the agent and the environment. There are two
main approaches to improving the sample efficiency of reinforcement learning
methods - using hierarchical methods and expert demonstrations. In this paper,
we propose a combination of these approaches that allow the agent to use
low-quality demonstrations in complex vision-based environments with multiple
related goals. Our forgetful experience replay (ForgER) algorithm effectively
handles errors in expert data and reduces quality losses when adapting the
action space and states representation to the agent's capabilities. Our
proposed goal-oriented structuring of replay buffer allows the agent to
automatically highlight sub-goals for solving complex hierarchical tasks in
demonstrations. Our method is universal and can be integrated into various
off-policy methods. It surpasses all known existing state-of-the-art RL methods
using expert demonstrations on various model environments. The solution based
on our algorithm beats all the solutions for the famous MineRL competition and
allows the agent to mine a diamond in the Minecraft environment.
- Abstract(参考訳): 現在、深層強化学習(RL)は複雑なゲームやロボット環境において素晴らしい成果を上げている。
多くの場合、これらの結果は膨大な計算コストを犠牲にして達成され、エージェントと環境の間の膨大な数の相互作用を必要とする。
強化学習手法のサンプル効率向上には,階層的手法と専門家による実証の2つの主要なアプローチがある。
本稿では,複数の目標を持つ複雑な視覚環境において,エージェントが低品質のデモンストレーションを使用できる手法の組み合わせを提案する。
我々の忘れられた経験リプレイ(ForgER)アルゴリズムは、専門家データのエラーを効果的に処理し、エージェントの能力にアクション空間と表現を適応させる際の品質損失を低減する。
提案する目標指向のリプレイバッファの構造化により,エージェントは複雑な階層的タスクを解決するためのサブゴールを自動的にハイライトすることができる。
我々の手法は普遍的で、様々な非政治手法に統合できる。
さまざまなモデル環境でのエキスパートデモンストレーションを使用して、既存のすべての最先端rlメソッドを上回っている。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドを採掘できるようにする。
関連論文リスト
- DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Embedding Contextual Information through Reward Shaping in Multi-Agent
Learning: A Case Study from Google Football [0.0]
我々は、報酬関数に文脈情報を埋め込むことで、新たな報酬形成手法を作成する。
Google Research Football (GRF) 環境でこれを実証する。
実験結果から,報奨信号の少ない環境下でのトレーニングエージェントのための最新のMARLアルゴリズムに,報奨形法が有用であることが確認された。
論文 参考訳(メタデータ) (2023-03-25T10:21:13Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文 参考訳(メタデータ) (2021-09-27T12:42:05Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。