論文の概要: Hindsight Foresight Relabeling for Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.09031v1
- Date: Sat, 18 Sep 2021 23:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 07:26:38.052036
- Title: Hindsight Foresight Relabeling for Meta-Reinforcement Learning
- Title(参考訳): メタ強化学習の今後の展望
- Authors: Michael Wan, Jian Peng, Tanmay Gangwani
- Abstract要約: メタ強化学習(Meta-RL)アルゴリズムにより、エージェントは少数の経験から新しい行動を学ぶことができる。
メタRLエージェントは、ほんのわずかな軌道を経験した後、テスト時に新しいタスクに迅速に適応できるが、メタトレーニングプロセスはサンプリング非効率である。
我々はHFR(Hindsight Foresight Relabeling)と呼ばれる新しいラベリング手法を考案した。
HFRは、様々なメタRLタスクにおける他のレバーベリングメソッドと比較してパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 20.755104281986757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-reinforcement learning (meta-RL) algorithms allow for agents to learn
new behaviors from small amounts of experience, mitigating the sample
inefficiency problem in RL. However, while meta-RL agents can adapt quickly to
new tasks at test time after experiencing only a few trajectories, the
meta-training process is still sample-inefficient. Prior works have found that
in the multi-task RL setting, relabeling past transitions and thus sharing
experience among tasks can improve sample efficiency and asymptotic
performance. We apply this idea to the meta-RL setting and devise a new
relabeling method called Hindsight Foresight Relabeling (HFR). We construct a
relabeling distribution using the combination of "hindsight", which is used to
relabel trajectories using reward functions from the training task
distribution, and "foresight", which takes the relabeled trajectories and
computes the utility of each trajectory for each task. HFR is easy to implement
and readily compatible with existing meta-RL algorithms. We find that HFR
improves performance when compared to other relabeling methods on a variety of
meta-RL tasks.
- Abstract(参考訳): メタ強化学習(Meta-RL)アルゴリズムは、エージェントが少量の経験から新しい振る舞いを学習し、RLのサンプル非効率問題を緩和する。
しかし、メタRLエージェントは、わずかの軌道を経験した後、テスト時に新しいタスクに迅速に適応できるが、メタトレーニングプロセスはサンプリング非効率である。
従来の研究では、マルチタスクのRL設定では、過去の遷移を緩和し、タスク間の共有経験がサンプル効率と漸近的なパフォーマンスを向上させることが判明している。
このアイデアをメタRL設定に適用し、HFR(Hindsight Foresight Relabeling)と呼ばれる新しいラベリング手法を考案する。
我々は,訓練タスク分布から報酬関数を用いたリラベリングトラジェクタをリラベリングする"hindsight"と,リラベリングトラジェクタを取り込み,各タスクに対する各軌道の有用性を計算する"foresight"を組み合わせたリラベリング分布を構築した。
HFRは実装が容易で、既存のメタRLアルゴリズムと容易に互換性がある。
HFRは,様々なメタRLタスクにおいて,他の拡張メソッドと比較して性能が向上することがわかった。
関連論文リスト
- Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。