論文の概要: PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.06394v4
- Date: Fri, 24 Nov 2023 13:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 04:05:19.750126
- Title: PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical
Reinforcement Learning
- Title(参考訳): PEAR: 階層的強化学習を促進するための原始的適応的リラベリング
- Authors: Utsav Singh, Vinay P Namboodiri
- Abstract要約: 階層的強化学習は、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
- 参考スコア(独自算出の注目度): 30.533883667629887
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hierarchical reinforcement learning (HRL) has the potential to solve complex
long horizon tasks using temporal abstraction and increased exploration.
However, hierarchical agents are difficult to train due to inherent
non-stationarity. We present primitive enabled adaptive relabeling (PEAR), a
two-phase approach where we first perform adaptive relabeling on a few expert
demonstrations to generate efficient subgoal supervision, and then jointly
optimize HRL agents by employing reinforcement learning (RL) and imitation
learning (IL). We perform theoretical analysis to $(i)$ bound the
sub-optimality of our approach, and $(ii)$ derive a generalized plug-and-play
framework for joint optimization using RL and IL. PEAR uses a handful of expert
demonstrations and makes minimal limiting assumptions on the task structure.
Additionally, it can be easily integrated with typical model free RL algorithms
to produce a practical HRL algorithm. We perform experiments on challenging
robotic environments and show that PEAR is able to solve tasks that require
long term decision making. We empirically show that PEAR exhibits improved
performance and sample efficiency over previous hierarchical and
non-hierarchical approaches. We also perform real world robotic experiments on
complex tasks and demonstrate that PEAR consistently outperforms the baselines.
- Abstract(参考訳): 階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。
しかし、階層的エージェントは本質的に非定常性のために訓練が難しい。
提案手法は,まず数種類の専門家による適応型レザベリングを行い,効率的なサブゴナル・インスペクションを生成するための2段階の手法であるプリミティブ・アダプティブ・アダプティブ・レザベリング(PEAR)を提案し,その後,強化学習(RL)と模倣学習(IL)を用いてHRLエージェントを協調的に最適化する。
理論的な分析を $ にします
(i)$ アプローチのサブ最適性にバインドし、$
(ii)RLとILを用いた共同最適化のための汎用的なプラグアンドプレイフレームワークを導出する。
PEARはいくつかの専門家によるデモンストレーションを使用し、タスク構造に対する最小限の仮定を行う。
さらに、実用的なHRLアルゴリズムを生成するために、典型的なモデルフリーなRLアルゴリズムと容易に統合できる。
我々は,ロボット環境に挑戦する実験を行い,pearが長期的意思決定を必要とする課題を解決できることを示す。
PEARは従来の階層的アプローチや非階層的アプローチよりも性能とサンプル効率が向上していることを実証的に示す。
また、複雑なタスクで現実世界のロボット実験を行い、PEARがベースラインを一貫して上回っていることを示す。
関連論文リスト
- RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。
RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2024-05-29T22:23:20Z) - BiERL: A Meta Evolutionary Reinforcement Learning Framework via Bilevel
Optimization [34.24884427152513]
双レベル最適化(BiERL)による一般的なメタERLフレームワークを提案する。
我々は、内部レベルの進化した経験を情報的人口表現に組み込むエレガントなメタレベルアーキテクチャを設計する。
我々は MuJoCo と Box2D タスクの広範な実験を行い、一般的なフレームワークとして BiERL が様々なベースラインを上回り、ERL アルゴリズムの多様性の学習性能を一貫して向上することを検証する。
論文 参考訳(メタデータ) (2023-08-01T09:31:51Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning [25.84621883831624]
我々は、低レベルのプリミティブを進化させるための達成可能なサブゴールのカリキュラムを生成する新しいHRLアルゴリズムであるCRISPを提案する。
CRISPは低レベルのプリミティブを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーベリングを行う。
実世界のシナリオにおいてCRISPは印象的な一般化を示す。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z) - Hypernetworks in Meta-Reinforcement Learning [47.25270748922176]
マルチタスク強化学習(RL)とメタRLは、関連するタスクの分布を一般化することにより、サンプル効率を向上させることを目的としている。
最先端の手法はしばしば、各タスクを個別に学習する退化したソリューションよりも優れている。
Hypernetworksは、退化ソリューションの別々のポリシーを複製し、メタRLに適用できるので、将来性のある道です。
論文 参考訳(メタデータ) (2022-10-20T15:34:52Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。