論文の概要: Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency
- arxiv url: http://arxiv.org/abs/2310.01827v2
- Date: Sun, 19 Nov 2023 15:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 17:43:57.583464
- Title: Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency
- Title(参考訳): 初歩的行動の学習と再利用による隠れ体験の再現
- Authors: Francisco Roldan Sanchez, Qiang Wang, David Cordova Bulens, Kevin
McGuinness, Stephen Redmond, Noel O'Connor
- Abstract要約: 簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
- 参考スコア(独自算出の注目度): 7.806014635635933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hindsight Experience Replay (HER) is a technique used in reinforcement
learning (RL) that has proven to be very efficient for training off-policy
RL-based agents to solve goal-based robotic manipulation tasks using sparse
rewards. Even though HER improves the sample efficiency of RL-based agents by
learning from mistakes made in past experiences, it does not provide any
guidance while exploring the environment. This leads to very large training
times due to the volume of experience required to train an agent using this
replay strategy. In this paper, we propose a method that uses primitive
behaviours that have been previously learned to solve simple tasks in order to
guide the agent toward more rewarding actions during exploration while learning
other more complex tasks. This guidance, however, is not executed by a manually
designed curriculum, but rather using a critic network to decide at each
timestep whether or not to use the actions proposed by the previously-learned
primitive policies. We evaluate our method by comparing its performance against
HER and other more efficient variations of this algorithm in several block
manipulation tasks. We demonstrate the agents can learn a successful policy
faster when using our proposed method, both in terms of sample efficiency and
computation time. Code is available at https://github.com/franroldans/qmp-her.
- Abstract(参考訳): hindsight experience replay (her) は強化学習 (rl) で用いられるテクニックであり、スパース報酬を用いて目標ベースのロボット操作タスクを解決するために、オフポリシーrlベースのエージェントをトレーニングするのに非常に効率的であることが証明されている。
HERは、過去の経験の誤りから学習することで、RLベースのエージェントのサンプル効率を改善するが、環境を探索する際のガイダンスは提供しない。
これは、このリプレイ戦略を使ってエージェントを訓練するのに必要な経験量のために、非常に大きなトレーニング時間をもたらす。
本稿では,より複雑なタスクを学習しながら,エージェントを探索中により報奨的行動に導くために,単純なタスクの解法として学習された原始的な振る舞いを用いた手法を提案する。
しかし、この指導は手動で設計したカリキュラムによっては実行されず、批判者ネットワークを使用して、前述したプリミティブポリシーによって提案されたアクションを使用するかどうかを各時間ステップで決定する。
本手法は,複数のブロック操作タスクにおいて,その性能とアルゴリズムのより効率的なバリエーションを比較して評価する。
提案手法では, サンプル効率と計算時間の両方から, エージェントがより早く方針を学習できることを実証する。
コードはhttps://github.com/franroldans/qmp-herで入手できる。
関連論文リスト
- Learning Diverse Policies with Soft Self-Generated Guidance [2.9602904918952695]
非ゼロ報酬がほとんど得られないため、スパースと偽りの報酬による強化学習は困難である。
本稿では,より高速で効率的なオンラインRLを実現するために,多種多様な過去の軌跡を利用する手法を開発した。
論文 参考訳(メタデータ) (2024-02-07T02:53:50Z) - Backward Curriculum Reinforcement Learning [0.0]
現在の強化学習アルゴリズムは、前向きに生成された軌道を使ってエージェントを訓練する。
十分な探索から強化学習の価値を実現する一方で、このアプローチはサンプル効率を失う際のトレードオフにつながる。
本稿では,従来の前進路ではなく,後進路を用いてエージェントを訓練する新しい後進カリキュラム強化学習を提案する。
論文 参考訳(メタデータ) (2022-12-29T08:23:39Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。