論文の概要: Skill-Critic: Refining Learned Skills for Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.08388v3
- Date: Fri, 12 Jul 2024 01:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 05:56:40.111718
- Title: Skill-Critic: Refining Learned Skills for Hierarchical Reinforcement Learning
- Title(参考訳): スキルクリティカル:階層的強化学習のための学習スキルの精製
- Authors: Ce Hao, Catherine Weaver, Chen Tang, Kenta Kawamoto, Masayoshi Tomizuka, Wei Zhan,
- Abstract要約: そこで本研究では,高レベルのスキル選択とともに,低レベルのポリシーを微調整するSkill-Criticアルゴリズムを提案する。
グラナ・トゥリストスポーツにおけるスパース・リワード自律レースタスクを含む,複数のスパース・リワード環境におけるスキル・クリティカルの検証を行った。
- 参考スコア(独自算出の注目度): 48.75878234995544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical reinforcement learning (RL) can accelerate long-horizon decision-making by temporally abstracting a policy into multiple levels. Promising results in sparse reward environments have been seen with skills, i.e. sequences of primitive actions. Typically, a skill latent space and policy are discovered from offline data. However, the resulting low-level policy can be unreliable due to low-coverage demonstrations or distribution shifts. As a solution, we propose the Skill-Critic algorithm to fine-tune the low-level policy in conjunction with high-level skill selection. Our Skill-Critic algorithm optimizes both the low-level and high-level policies; these policies are initialized and regularized by the latent space learned from offline demonstrations to guide the parallel policy optimization. We validate Skill-Critic in multiple sparse-reward RL environments, including a new sparse-reward autonomous racing task in Gran Turismo Sport. The experiments show that Skill-Critic's low-level policy fine-tuning and demonstration-guided regularization are essential for good performance. Code and videos are available at our website: https://sites.google.com/view/skill-critic.
- Abstract(参考訳): 階層的強化学習(RL)は、政策を時間的に複数のレベルに抽象化することで、長期的な意思決定を促進することができる。
スパース報酬環境における評価結果は、スキル、すなわちプリミティブアクションのシーケンスで見られる。
通常、スキル潜在空間とポリシーはオフラインデータから発見される。
しかしながら、結果として生じる低レベルのポリシーは、低カバレッジのデモンストレーションや分散シフトのために信頼性が低い可能性がある。
そこで本研究では,Skill-Criticアルゴリズムを用いて,ハイレベルなスキル選択とともに低レベルなポリシーを微調整する手法を提案する。
我々のスキル・クリティカル・アルゴリズムは、低レベルと高レベルの両方のポリシーを最適化する。これらのポリシーは、オフラインのデモから学んだ潜在空間によって初期化され、規則化され、並列ポリシーの最適化を導く。
複数のスパース・リワードRL環境におけるスキル・クリティカルの評価を行い,グラナ・トゥリストスポーツにおけるスパース・リワード自律レースタスクについて検討した。
実験の結果,Skill-Criticの低レベル政策の微調整と実演誘導型正規化が性能向上に不可欠であることが示唆された。
コードとビデオは、私たちのWebサイト(https://sites.google.com/view/skill-critic)で入手できる。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Residual Skill Policies: Learning an Adaptable Skill-based Action Space
for Reinforcement Learning for Robotics [18.546688182454236]
スキルベース強化学習(RL)は、ロボット学習の加速に先行知識を活用するための有望な戦略として登場した。
本研究では,状態条件付き生成モデルを用いて,スキル空間における探索を高速化する手法を提案する。
我々は4つの困難な操作タスクにまたがってアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-04T02:42:17Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。