論文の概要: PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.06394v1
- Date: Sat, 10 Jun 2023 09:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 19:15:17.750822
- Title: PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical
Reinforcement Learning
- Title(参考訳): PEAR: 階層的強化学習を促進するための原始的適応的リラベリング
- Authors: Utsav Singh, Vinay P Namboodiri
- Abstract要約: 階層的強化学習(HRL)は、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
PEARは2段階のアプローチであり、まずいくつかの専門家によるデモンストレーションを行い、サブゴールの監視データセットを生成する。
次に、通常のHRLエージェントの模倣学習を用いて、サブゴール監視データセットを生成する。
- 参考スコア(独自算出の注目度): 26.832500767373737
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hierarchical reinforcement learning (HRL) has the potential to solve complex
long horizon tasks using temporal abstraction and increased exploration.
However, hierarchical agents are difficult to train as they suffer from
inherent non-stationarity due to continuously changing low level primitive. We
present primitive enabled adaptive relabeling (PEAR), a two-phase approach
where firstly we perform adaptive relabeling on a few expert demonstrations to
generate subgoal supervision dataset, and then employ imitation learning for
regularizing HRL agents. We bound the sub-optimality of our method using
theoretical bounds and devise a practical HRL algorithm for solving complex
robotic tasks. We perform experiments on challenging robotic tasks: maze
navigation, pick and place, rope manipulation and kitchen environments, and
demonstrate that the proposed approach is able to solve complex tasks that
require long term decision making. Since our method uses a handful of expert
demonstrations and makes minimal limiting assumptions on task structure, it can
be easily integrated with typical model free reinforcement learning algorithms
to solve most robotic tasks. We empirically show that our approach outperforms
previous hierarchical and non-hierarchical baselines, and exhibits better
sample efficiency. We also perform real world robotic experiments by deploying
the learned policy on a real robotic rope manipulation task and demonstrate
that PEAR consistently outperforms the baselines. Here is the link for
supplementary video: \url{https://tinyurl.com/pearOverview}
- Abstract(参考訳): 階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。
しかし、階層エージェントは、低レベルプリミティブを継続的に変更するため、固有の非定常性に苦しむため、トレーニングが難しい。
提案手法は,まず,いくつかの専門家による実験を行い,サブゴール監視データセットを生成して,HRLエージェントの正規化に擬似学習を用いる2段階の手法であるプリミティブ・アダプティブ・アダプティブ・レラベリング(PEAR)を提案する。
本手法の最適性は, 理論境界を用いて限定し, 複雑なロボット課題を解決するための実用的なhrlアルゴリズムを考案する。
我々は,mazeナビゲーション,ピックアンドプレース,ロープ操作,キッチン環境といったロボット課題について実験を行い,提案手法が長期的意思決定を必要とする複雑なタスクを解決できることを実証する。
本手法は一握りの専門家による実証を行い,タスク構造に最小限の制限を課すことができるため,ロボットタスクのほとんどを解決するために,典型的なモデルフリー強化学習アルゴリズムと容易に統合することができる。
従来の階層ベースラインや非階層ベースラインよりも優れており,サンプル効率も良好であることを示す。
また,学習方針を実際のロープ操作タスクに展開することで実世界のロボット実験を行い,PEARが一貫してベースラインを上回っていることを示す。
補足ビデオのリンク: \url{https://tinyurl.com/pearOverview}
関連論文リスト
- RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。
RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2024-05-29T22:23:20Z) - BiERL: A Meta Evolutionary Reinforcement Learning Framework via Bilevel
Optimization [34.24884427152513]
双レベル最適化(BiERL)による一般的なメタERLフレームワークを提案する。
我々は、内部レベルの進化した経験を情報的人口表現に組み込むエレガントなメタレベルアーキテクチャを設計する。
我々は MuJoCo と Box2D タスクの広範な実験を行い、一般的なフレームワークとして BiERL が様々なベースラインを上回り、ERL アルゴリズムの多様性の学習性能を一貫して向上することを検証する。
論文 参考訳(メタデータ) (2023-08-01T09:31:51Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning [25.84621883831624]
我々は、低レベルのプリミティブを進化させるための達成可能なサブゴールのカリキュラムを生成する新しいHRLアルゴリズムであるCRISPを提案する。
CRISPは低レベルのプリミティブを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーベリングを行う。
実世界のシナリオにおいてCRISPは印象的な一般化を示す。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z) - Hypernetworks in Meta-Reinforcement Learning [47.25270748922176]
マルチタスク強化学習(RL)とメタRLは、関連するタスクの分布を一般化することにより、サンプル効率を向上させることを目的としている。
最先端の手法はしばしば、各タスクを個別に学習する退化したソリューションよりも優れている。
Hypernetworksは、退化ソリューションの別々のポリシーを複製し、メタRLに適用できるので、将来性のある道です。
論文 参考訳(メタデータ) (2022-10-20T15:34:52Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。