論文の概要: Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL
- arxiv url: http://arxiv.org/abs/2112.00901v1
- Date: Thu, 2 Dec 2021 00:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 14:39:32.185573
- Title: Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL
- Title(参考訳): Hindsight Task Relabelling: Sparse Reward Meta-RLの経験リプレイ
- Authors: Charles Packer, Pieter Abbeel, Joseph E. Gonzalez
- Abstract要約: 本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
- 参考スコア(独自算出の注目度): 91.26538493552817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-reinforcement learning (meta-RL) has proven to be a successful framework
for leveraging experience from prior tasks to rapidly learn new related tasks,
however, current meta-RL approaches struggle to learn in sparse reward
environments. Although existing meta-RL algorithms can learn strategies for
adapting to new sparse reward tasks, the actual adaptation strategies are
learned using hand-shaped reward functions, or require simple environments
where random exploration is sufficient to encounter sparse reward. In this
paper, we present a formulation of hindsight relabeling for meta-RL, which
relabels experience during meta-training to enable learning to learn entirely
using sparse reward. We demonstrate the effectiveness of our approach on a
suite of challenging sparse reward goal-reaching environments that previously
required dense reward during meta-training to solve. Our approach solves these
environments using the true sparse reward function, with performance comparable
to training with a proxy dense reward function.
- Abstract(参考訳): メタ強化学習(meta-reinforcement learning, meta-rl)は、新しい関連するタスクを素早く学習するために、以前のタスクからの経験を活用するためのフレームワークであることが証明されている。
既存のメタRLアルゴリズムは、新しいスパース報酬タスクに適応するための戦略を学ぶことができるが、実際の適応戦略は手形報酬関数を用いて学習されるか、スパース報酬に遭遇するのにランダム探索が十分である単純な環境を必要とする。
そこで,本稿では,メタ学習中に経験を積んだメタrlに対する後天的relabelingの定式化について述べる。
提案手法の有効性を,メタトレーニング中に高い報酬を要求されるような,難易度の高い目標達成環境において実証する。
提案手法は,真のスパース報酬関数を用いて,プロキシ密度報酬関数を用いたトレーニングに匹敵する性能で,これらの環境を解消する。
関連論文リスト
- Black box meta-learning intrinsic rewards for sparse-reward environments [0.0]
本研究では,RLエージェントが受信した学習信号がメタラーニングによってどのように改善されるかを検討する。
我々は,この手法をメタ学習の利点関数と外因性報酬を用いて分析・比較する。
開発したアルゴリズムはパラメトリックと非パラメトリックの双方で連続制御タスクの分布を評価する。
論文 参考訳(メタデータ) (2024-07-31T12:09:33Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Hindsight Foresight Relabeling for Meta-Reinforcement Learning [20.755104281986757]
メタ強化学習(Meta-RL)アルゴリズムにより、エージェントは少数の経験から新しい行動を学ぶことができる。
メタRLエージェントは、ほんのわずかな軌道を経験した後、テスト時に新しいタスクに迅速に適応できるが、メタトレーニングプロセスはサンプリング非効率である。
我々はHFR(Hindsight Foresight Relabeling)と呼ばれる新しいラベリング手法を考案した。
HFRは、様々なメタRLタスクにおける他のレバーベリングメソッドと比較してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-09-18T23:49:14Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - HMRL: Hyper-Meta Learning for Sparse Reward Reinforcement Learning
Problem [107.52043871875898]
スパース報酬RL問題のためのメタ強化学習フレームワークHyper-Meta RL(HMRL)を開発した。
異なる環境に適応するために共通のメタ状態空間を構築するクロス環境メタ状態埋め込みモジュールを含む3つのモジュールで構成されている。
スパース・リワード環境を用いた実験は、伝達性および政策学習効率の両方においてHMRLの優位性を示す。
論文 参考訳(メタデータ) (2020-02-11T07:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。