Fugu-MT 論文翻訳(概要): PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning

論文の概要: PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning

arxiv url: http://arxiv.org/abs/2306.06394v1
Date: Sat, 10 Jun 2023 09:41:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 19:15:17.750822
Title: PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning
Title（参考訳）: PEAR: 階層的強化学習を促進するための原始的適応的リラベリング
Authors: Utsav Singh, Vinay P Namboodiri
Abstract要約: 階層的強化学習(HRL)は、複雑な長い地平線タスクを解く可能性がある。プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。 PEARは2段階のアプローチであり、まずいくつかの専門家によるデモンストレーションを行い、サブゴールの監視データセットを生成する。次に、通常のHRLエージェントの模倣学習を用いて、サブゴール監視データセットを生成する。
参考スコア（独自算出の注目度）: 26.832500767373737
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Hierarchical reinforcement learning (HRL) has the potential to solve complex long horizon tasks using temporal abstraction and increased exploration. However, hierarchical agents are difficult to train as they suffer from inherent non-stationarity due to continuously changing low level primitive. We present primitive enabled adaptive relabeling (PEAR), a two-phase approach where firstly we perform adaptive relabeling on a few expert demonstrations to generate subgoal supervision dataset, and then employ imitation learning for regularizing HRL agents. We bound the sub-optimality of our method using theoretical bounds and devise a practical HRL algorithm for solving complex robotic tasks. We perform experiments on challenging robotic tasks: maze navigation, pick and place, rope manipulation and kitchen environments, and demonstrate that the proposed approach is able to solve complex tasks that require long term decision making. Since our method uses a handful of expert demonstrations and makes minimal limiting assumptions on task structure, it can be easily integrated with typical model free reinforcement learning algorithms to solve most robotic tasks. We empirically show that our approach outperforms previous hierarchical and non-hierarchical baselines, and exhibits better sample efficiency. We also perform real world robotic experiments by deploying the learned policy on a real robotic rope manipulation task and demonstrate that PEAR consistently outperforms the baselines. Here is the link for supplementary video: \url{https://tinyurl.com/pearOverview}
Abstract（参考訳）: 階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。しかし、階層エージェントは、低レベルプリミティブを継続的に変更するため、固有の非定常性に苦しむため、トレーニングが難しい。提案手法は,まず,いくつかの専門家による実験を行い,サブゴール監視データセットを生成して,HRLエージェントの正規化に擬似学習を用いる2段階の手法であるプリミティブ・アダプティブ・アダプティブ・レラベリング(PEAR)を提案する。本手法の最適性は, 理論境界を用いて限定し, 複雑なロボット課題を解決するための実用的なhrlアルゴリズムを考案する。我々は,mazeナビゲーション,ピックアンドプレース,ロープ操作,キッチン環境といったロボット課題について実験を行い,提案手法が長期的意思決定を必要とする複雑なタスクを解決できることを実証する。本手法は一握りの専門家による実証を行い,タスク構造に最小限の制限を課すことができるため,ロボットタスクのほとんどを解決するために,典型的なモデルフリー強化学習アルゴリズムと容易に統合することができる。従来の階層ベースラインや非階層ベースラインよりも優れており,サンプル効率も良好であることを示す。また,学習方針を実際のロープ操作タスクに展開することで実世界のロボット実験を行い,PEARが一貫してベースラインを上回っていることを示す。補足ビデオのリンク: \url{https://tinyurl.com/pearOverview}

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Boosting Hierarchical Reinforcement Learning with Meta-Learning for Complex Task Adaptation [0.0]
階層強化学習(HRL)は、それらを構造化されたポリシーに分解することで複雑なタスクを解決するのに適している。エージェントが階層的なポリシーをより効果的に学習し、適応できるように、メタラーニングをHRLに統合することを提案する。
論文参考訳（メタデータ） (2024-10-10T13:47:37Z)
RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。 RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文参考訳（メタデータ） (2024-05-29T22:23:20Z)
BiERL: A Meta Evolutionary Reinforcement Learning Framework via Bilevel Optimization [34.24884427152513]
双レベル最適化(BiERL)による一般的なメタERLフレームワークを提案する。我々は、内部レベルの進化した経験を情報的人口表現に組み込むエレガントなメタレベルアーキテクチャを設計する。我々は MuJoCo と Box2D タスクの広範な実験を行い、一般的なフレームワークとして BiERL が様々なベースラインを上回り、ERL アルゴリズムの多様性の学習性能を一貫して向上することを検証する。
論文参考訳（メタデータ） (2023-08-01T09:31:51Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning [25.84621883831624]
我々は、低レベルのプリミティブを進化させるための達成可能なサブゴールのカリキュラムを生成する新しいHRLアルゴリズムであるCRISPを提案する。 CRISPは低レベルのプリミティブを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーベリングを行う。実世界のシナリオにおいてCRISPは印象的な一般化を示す。
論文参考訳（メタデータ） (2023-04-07T08:22:50Z)
Hypernetworks in Meta-Reinforcement Learning [47.25270748922176]
マルチタスク強化学習(RL)とメタRLは、関連するタスクの分布を一般化することにより、サンプル効率を向上させることを目的としている。最先端の手法はしばしば、各タスクを個別に学習する退化したソリューションよりも優れている。 Hypernetworksは、退化ソリューションの別々のポリシーを複製し、メタRLに適用できるので、将来性のある道です。
論文参考訳（メタデータ） (2022-10-20T15:34:52Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-10-18T17:56:02Z)
Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文参考訳（メタデータ） (2020-10-16T18:48:49Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。