論文の概要: Guided Exploration with Proximal Policy Optimization using a Single
Demonstration
- arxiv url: http://arxiv.org/abs/2007.03328v2
- Date: Wed, 16 Jun 2021 21:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 19:41:00.796468
- Title: Guided Exploration with Proximal Policy Optimization using a Single
Demonstration
- Title(参考訳): 単一デモを用いた近位政策最適化によるガイド付き探索
- Authors: Gabriele Libardi and Gianni De Fabritiis
- Abstract要約: エージェントを実演と経験の組み合わせで訓練し、初期条件の異なる問題を解く。
エージェントは、自身の過去の軌跡を再生することで、その性能を高め、困難な問題に対処することができる。
私たちの知識を最大限に活用するために、人間の実演を1つだけ使う前に、同等の難易度を持つ3次元環境でタスクを学習することは、これまで考えられなかった。
- 参考スコア(独自算出の注目度): 5.076419064097734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving sparse reward tasks through exploration is one of the major
challenges in deep reinforcement learning, especially in three-dimensional,
partially-observable environments. Critically, the algorithm proposed in this
article uses a single human demonstration to solve hard-exploration problems.
We train an agent on a combination of demonstrations and own experience to
solve problems with variable initial conditions. We adapt this idea and
integrate it with the proximal policy optimization (PPO). The agent is able to
increase its performance and to tackle harder problems by replaying its own
past trajectories prioritizing them based on the obtained reward and the
maximum value of the trajectory. We compare different variations of this
algorithm to behavioral cloning on a set of hard-exploration tasks in the
Animal-AI Olympics environment. To the best of our knowledge, learning a task
in a three-dimensional environment with comparable difficulty has never been
considered before using only one human demonstration.
- Abstract(参考訳): 探索を通してスパース報酬タスクを解くことは、特に3次元の部分観測可能な環境において、深層強化学習における大きな課題の1つである。
本論文で提案するアルゴリズムは, ハード探索問題の解法として, 一人の人間の実演を用いる。
エージェントを実演と経験の組み合わせで訓練し、初期条件の変化による問題を解決する。
我々はこの考え方に適応し、近似ポリシー最適化(PPO)と統合する。
エージェントは、得られる報酬と軌道の最大値に基づいて優先順位付けした過去の軌跡を再生することにより、その性能を高め、困難な問題に取り組むことができる。
本アルゴリズムの異なるバリエーションを,動物-aiオリンピック環境における一連の難解な探索課題における行動のクローニングと比較した。
私たちの知る限りでは、同じ難易度で3次元環境でタスクを学ぶことは、1つの人間のデモンストレーションを使う前には考えられていない。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - A Memory-Related Multi-Task Method Based on Task-Agnostic Exploration [26.17597857264231]
模倣学習とは対照的に、専門家データはなく、環境探索を通じて収集されたデータのみである。
新しいタスクを解くためのアクションシーケンスは、複数のトレーニングタスクの軌道セグメントの組み合わせである可能性があるため、テストタスクと解決戦略は、トレーニングデータに直接存在しない。
本稿では,メモリ関連マルチタスク手法(M3)を提案する。
論文 参考訳(メタデータ) (2022-09-09T03:02:49Z) - Emergence of Novelty in Evolutionary Algorithms [0.0]
迷路問題にアプローチを導入し,提案した解と比較する。
私たちのソリューションでは、パフォーマンスが大幅に向上すると同時に、はるかにシンプルであることに気付きました。
そこで我々は,この問題を一般化し,より高度なタスクセットであるAtari Gamesにアプローチを適用する。
論文 参考訳(メタデータ) (2022-06-27T13:49:41Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。