論文の概要: Reset-Free Lifelong Learning with Skill-Space Planning
- arxiv url: http://arxiv.org/abs/2012.03548v2
- Date: Fri, 1 Jan 2021 10:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 02:24:15.834004
- Title: Reset-Free Lifelong Learning with Skill-Space Planning
- Title(参考訳): スキルスペースプランニングによるリセットフリー生涯学習
- Authors: Kevin Lu, Aditya Grover, Pieter Abbeel, Igor Mordatch
- Abstract要約: 非分離寿命RLのためのアルゴリズムフレームワークであるLifelong Skill Planning (LiSP)を提案する。
LiSPは、本質的な報酬を用いて教師なしの方法でスキルを学び、学習力学モデルを用いて学習スキルを計画する。
我々は,lispが長期計画に成功し,非定常環境や非定型環境においても壊滅的な失敗を回避できるエージェントを学習できることを実証的に示す。
- 参考スコア(独自算出の注目度): 105.00539596788127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of lifelong reinforcement learning (RL) is to optimize agents
which can continuously adapt and interact in changing environments. However,
current RL approaches fail drastically when environments are non-stationary and
interactions are non-episodic. We propose Lifelong Skill Planning (LiSP), an
algorithmic framework for non-episodic lifelong RL based on planning in an
abstract space of higher-order skills. We learn the skills in an unsupervised
manner using intrinsic rewards and plan over the learned skills using a learned
dynamics model. Moreover, our framework permits skill discovery even from
offline data, thereby reducing the need for excessive real-world interactions.
We demonstrate empirically that LiSP successfully enables long-horizon planning
and learns agents that can avoid catastrophic failures even in challenging
non-stationary and non-episodic environments derived from gridworld and MuJoCo
benchmarks.
- Abstract(参考訳): 生涯強化学習(RL)の目的は、変化する環境に継続的に適応し、相互作用できるエージェントを最適化することである。
しかし、現在のRLアプローチは、環境が非定常で相互作用が非エポゾディックである場合、大幅に失敗する。
我々は,高次スキルの抽象空間における計画に基づく非定型生涯rlのためのアルゴリズムフレームワークであるlifelong skill planning (lisp)を提案する。
我々は、本質的な報酬を用いて教師なしの方法でスキルを学び、学習力学モデルを用いて学習スキルを計画する。
さらに,本フレームワークでは,オフラインデータからもスキル発見が可能であり,現実世界の過剰なインタラクションの必要性が軽減される。
我々はLiSPが長期計画に成功し、グリッドワールドやMuJoCoベンチマークから派生した非定常的・非エポゾディック環境においても破滅的な失敗を回避できるエージェントを学習できることを実証的に実証した。
関連論文リスト
- Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - EXTRACT: Efficient Policy Learning by Extracting Transferable Robot Skills from Offline Data [22.471559284344462]
ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。
これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。
我々は,従来の作業よりも短時間で新しいタスクを学習できる,スパースでイメージベースのロボット操作環境の実験を通じて実演する。
論文 参考訳(メタデータ) (2024-06-25T17:50:03Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Boosting Offline Reinforcement Learning for Autonomous Driving with
Hierarchical Latent Skills [37.31853034449015]
本稿では、長距離車両計画の課題を克服するために、オフラインRLを強化するスキルベースのフレームワークを提案する。
具体的には、オフラインデモからスキルを学ぶための変分オートエンコーダ(VAE)を設計する。
一般的なVAEの後方崩壊を緩和するため、2分岐シーケンスエンコーダを導入し、離散的なオプションと複雑な駆動スキルの連続的な変化をキャプチャする。
論文 参考訳(メタデータ) (2023-09-24T11:51:17Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。