論文の概要: HMRL: Hyper-Meta Learning for Sparse Reward Reinforcement Learning
Problem
- arxiv url: http://arxiv.org/abs/2002.04238v2
- Date: Sat, 5 Jun 2021 06:36:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 01:12:03.923465
- Title: HMRL: Hyper-Meta Learning for Sparse Reward Reinforcement Learning
Problem
- Title(参考訳): HMRL:スパースリワード強化学習問題のためのハイパーメタ学習
- Authors: Yun Hua, Xiangfeng Wang, Bo Jin, Wenhao Li, Junchi Yan, Xiaofeng He,
Hongyuan Zha
- Abstract要約: スパース報酬RL問題のためのメタ強化学習フレームワークHyper-Meta RL(HMRL)を開発した。
異なる環境に適応するために共通のメタ状態空間を構築するクロス環境メタ状態埋め込みモジュールを含む3つのモジュールで構成されている。
スパース・リワード環境を用いた実験は、伝達性および政策学習効率の両方においてHMRLの優位性を示す。
- 参考スコア(独自算出の注目度): 107.52043871875898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In spite of the success of existing meta reinforcement learning methods, they
still have difficulty in learning a meta policy effectively for RL problems
with sparse reward. In this respect, we develop a novel meta reinforcement
learning framework called Hyper-Meta RL(HMRL), for sparse reward RL problems.
It is consisted with three modules including the cross-environment meta state
embedding module which constructs a common meta state space to adapt to
different environments; the meta state based environment-specific meta reward
shaping which effectively extends the original sparse reward trajectory by
cross-environmental knowledge complementarity and as a consequence the meta
policy achieves better generalization and efficiency with the shaped meta
reward. Experiments with sparse-reward environments show the superiority of
HMRL on both transferability and policy learning efficiency.
- Abstract(参考訳): 既存のメタ強化学習手法の成功にもかかわらず, 疎報酬を伴うRL問題に対して, メタポリシーを効果的に学習することは困難である。
本研究では, メタ強化学習フレームワークHyper-Meta RL(HMRL)を開発した。
異なる環境に適応するための共通のメタ状態空間を構築するクロス環境メタ状態埋め込みモジュールを含む3つのモジュールと、クロス環境知識の相補性によって元のスパース報酬軌道を効果的に拡張するメタ状態ベースの環境固有のメタ報酬形成と、その結果、メタポリシーは、形状のメタ報酬によりより一般化と効率の向上を達成する。
スパース・リワード環境を用いた実験は、伝達性および政策学習効率の両方においてHMRLの優位性を示す。
関連論文リスト
- MAMBA: an Effective World Model Approach for Meta-Reinforcement Learning [18.82398325614491]
本稿では,メタRL法とメタRL法の要素に基づくメタRLの新しいモデルベースアプローチを提案する。
本稿では,メタRLベンチマークドメインに対するアプローチの有効性を実証し,より優れたサンプル効率でより高いリターンが得られることを示す。
さらに,より困難な高次元領域のスレート上でのアプローチを検証し,実世界の一般化エージェントへの一歩を踏み出した。
論文 参考訳(メタデータ) (2024-03-14T20:40:36Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Enhanced Meta Reinforcement Learning using Demonstrations in Sparse
Reward Environments [10.360491332190433]
Demonstrations を用いた Enhanced Meta-RL というアルゴリズムのクラスを開発する。
本稿では、EMRLDがRLと教師付き学習をオフラインデータ上で併用してメタポリティクスを生成する方法を示す。
また,EMRLDアルゴリズムは,様々なスパース報酬環境における既存手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2022-09-26T22:01:12Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。