論文の概要: CRISP: Curriculum inducing Primitive Informed Subgoal Prediction
- arxiv url: http://arxiv.org/abs/2304.03535v2
- Date: Wed, 20 Sep 2023 13:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 00:29:00.711343
- Title: CRISP: Curriculum inducing Primitive Informed Subgoal Prediction
- Title(参考訳): CRISP:原始インフォームドサブゴの予測を誘導するカリキュラム
- Authors: Utsav Singh, Vinay P Namboodiri
- Abstract要約: 低レベルのプリミティブを進化させるために,達成可能なサブゴールのカリキュラムを生成するための新しい階層型アルゴリズムCRISPを提案する。
私たちのアプローチでは、いくつかの専門家によるデモンストレーションが使用されているので、ほとんどのロボット制御タスクに適しています。
- 参考スコア(独自算出の注目度): 30.533883667629887
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hierarchical reinforcement learning is a promising approach that uses
temporal abstraction to solve complex long horizon problems. However,
simultaneously learning a hierarchy of policies is unstable as it is
challenging to train higher-level policy when the lower-level primitive is
non-stationary. In this paper, we propose a novel hierarchical algorithm CRISP
to generate a curriculum of achievable subgoals for evolving lower-level
primitives using reinforcement learning and imitation learning. The lower level
primitive periodically performs data relabeling on a handful of expert
demonstrations using our primitive informed parsing approach to handle
non-stationarity. Since our approach uses a handful of expert demonstrations,
it is suitable for most robotic control tasks. Experimental evaluations on
complex robotic maze navigation and robotic manipulation environments show that
inducing hierarchical curriculum learning significantly improves sample
efficiency, and results in efficient goal conditioned policies for solving
temporally extended tasks. We perform real world robotic experiments on complex
manipulation tasks and demonstrate that CRISP consistently outperforms the
baselines.
- Abstract(参考訳): 階層的強化学習は、複雑な長距離地平線問題を解決するために時間的抽象化を使用する有望なアプローチである。
しかし、低レベルのプリミティブが非定常である場合、高レベルのポリシーを訓練することが難しいため、同時にポリシー階層を学習することは不安定である。
本稿では,強化学習と模倣学習を用いて,低レベルプリミティブを進化させるための,実現可能なサブゴールのカリキュラムを生成するための新しい階層的アルゴリズムを提案する。
低レベルのプリミティブは、非定常性を扱うプリミティブ情報解析アプローチを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーリングを行います。
私たちのアプローチは、いくつかの専門家によるデモを使うので、ほとんどのロボット制御タスクに適している。
複雑なロボット迷路ナビゲーションおよびロボット操作環境における実験評価により,階層的カリキュラム学習の誘導がサンプル効率を大幅に向上し,時間的拡張課題を解決するための効率的な目標条件付きポリシーが得られた。
複雑な操作タスクにおける実世界のロボット実験を行い、CRISPがベースラインを一貫して上回っていることを示す。
関連論文リスト
- DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning [36.50275602760051]
DIPPER: 原始許容階層型強化学習の高速化のための直接選好最適化について紹介する。
直接選好最適化を利用する効率的な階層的アプローチであり、より高度な政策を学ぶために、そして低レベルの政策を学ぶために強化学習を行う。
標準的な嗜好に基づくアプローチではなく、直接選好最適化を使用することで、計算効率の向上を享受している。
論文 参考訳(メタデータ) (2024-06-16T10:49:41Z) - LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning [22.99690700210957]
言語命令を利用して,より高レベルなポリシーのための静的報酬関数を生成する新しいHRLフレームワークを提案する。
言語誘導報酬はより低い原始的な振る舞いに影響されないため、LGR2は非定常性を緩和する。
弊社のアプローチは、難易度の高いスパークリワードロボットナビゲーションと操作環境において、70ドル以上の成功率を達成した。
論文 参考訳(メタデータ) (2024-06-09T18:40:24Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Hierarchical Reinforcement Learning with Timed Subgoals [11.758625350317274]
Timed Subgoals (HiTS) を用いた階層型強化学習の導入
HiTSはエージェントがどの目標状態に到達すべきか、いつ到達するかを指定することで、そのタイミングを動的環境に適応させることを可能にする。
実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合,本手法はサンプル効率のよい学習が可能であることが確認された。
論文 参考訳(メタデータ) (2021-12-06T15:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。