論文の概要: CRISP: Curriculum inducing Primitive Informed Subgoal Prediction
- arxiv url: http://arxiv.org/abs/2304.03535v2
- Date: Wed, 20 Sep 2023 13:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 00:29:00.711343
- Title: CRISP: Curriculum inducing Primitive Informed Subgoal Prediction
- Title(参考訳): CRISP:原始インフォームドサブゴの予測を誘導するカリキュラム
- Authors: Utsav Singh, Vinay P Namboodiri
- Abstract要約: 低レベルのプリミティブを進化させるために,達成可能なサブゴールのカリキュラムを生成するための新しい階層型アルゴリズムCRISPを提案する。
私たちのアプローチでは、いくつかの専門家によるデモンストレーションが使用されているので、ほとんどのロボット制御タスクに適しています。
- 参考スコア(独自算出の注目度): 30.533883667629887
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hierarchical reinforcement learning is a promising approach that uses
temporal abstraction to solve complex long horizon problems. However,
simultaneously learning a hierarchy of policies is unstable as it is
challenging to train higher-level policy when the lower-level primitive is
non-stationary. In this paper, we propose a novel hierarchical algorithm CRISP
to generate a curriculum of achievable subgoals for evolving lower-level
primitives using reinforcement learning and imitation learning. The lower level
primitive periodically performs data relabeling on a handful of expert
demonstrations using our primitive informed parsing approach to handle
non-stationarity. Since our approach uses a handful of expert demonstrations,
it is suitable for most robotic control tasks. Experimental evaluations on
complex robotic maze navigation and robotic manipulation environments show that
inducing hierarchical curriculum learning significantly improves sample
efficiency, and results in efficient goal conditioned policies for solving
temporally extended tasks. We perform real world robotic experiments on complex
manipulation tasks and demonstrate that CRISP consistently outperforms the
baselines.
- Abstract(参考訳): 階層的強化学習は、複雑な長距離地平線問題を解決するために時間的抽象化を使用する有望なアプローチである。
しかし、低レベルのプリミティブが非定常である場合、高レベルのポリシーを訓練することが難しいため、同時にポリシー階層を学習することは不安定である。
本稿では,強化学習と模倣学習を用いて,低レベルプリミティブを進化させるための,実現可能なサブゴールのカリキュラムを生成するための新しい階層的アルゴリズムを提案する。
低レベルのプリミティブは、非定常性を扱うプリミティブ情報解析アプローチを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーリングを行います。
私たちのアプローチは、いくつかの専門家によるデモを使うので、ほとんどのロボット制御タスクに適している。
複雑なロボット迷路ナビゲーションおよびロボット操作環境における実験評価により,階層的カリキュラム学習の誘導がサンプル効率を大幅に向上し,時間的拡張課題を解決するための効率的な目標条件付きポリシーが得られた。
複雑な操作タスクにおける実世界のロボット実験を行い、CRISPがベースラインを一貫して上回っていることを示す。
関連論文リスト
- Foundation Policies with Hilbert Representations [61.19488199476655]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は破滅的な忘れ込みという課題を克服しようと試み、そこでは新しいタスクを解くための学習が、モデルが以前に学習した情報を忘れる原因となる。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れ込みを抑える新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Hierarchical Reinforcement Learning with Timed Subgoals [11.758625350317274]
Timed Subgoals (HiTS) を用いた階層型強化学習の導入
HiTSはエージェントがどの目標状態に到達すべきか、いつ到達するかを指定することで、そのタイミングを動的環境に適応させることを可能にする。
実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合,本手法はサンプル効率のよい学習が可能であることが確認された。
論文 参考訳(メタデータ) (2021-12-06T15:11:19Z) - Self-Imitation Learning by Planning [3.996275177789895]
模擬学習(IL)により、熟練の知識を伝達することで、ロボットがスキルを素早く習得できます。
長期移動計画タスクでは、ILおよびRLメソッドのデプロイにおける課題は、大規模で広範囲に分散したデータの生成と収集方法である。
本研究では,現在の方針から訪問状態の計画により,実演データを自動収集する自己模倣学習(silp)を提案する。
SILPは、早期強化学習の段階で正常に訪問された状態がグラフ検索ベースのモーションプランナーの衝突のないノードであることに触発されます。
論文 参考訳(メタデータ) (2021-03-25T13:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。