論文の概要: Offline Goal-Conditioned Reinforcement Learning for Safety-Critical
Tasks with Recovery Policy
- arxiv url: http://arxiv.org/abs/2403.01734v1
- Date: Mon, 4 Mar 2024 05:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:05:43.661245
- Title: Offline Goal-Conditioned Reinforcement Learning for Safety-Critical
Tasks with Recovery Policy
- Title(参考訳): リカバリポリシーを用いた安全クリティカルタスクのためのオフライン目標条件強化学習
- Authors: Chenyang Cao, Zichen Yan, Renhao Lu, Junbo Tan, Xueqian Wang
- Abstract要約: オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 4.854443247023496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline goal-conditioned reinforcement learning (GCRL) aims at solving
goal-reaching tasks with sparse rewards from an offline dataset. While prior
work has demonstrated various approaches for agents to learn near-optimal
policies, these methods encounter limitations when dealing with diverse
constraints in complex environments, such as safety constraints. Some of these
approaches prioritize goal attainment without considering safety, while others
excessively focus on safety at the expense of training efficiency. In this
paper, we study the problem of constrained offline GCRL and propose a new
method called Recovery-based Supervised Learning (RbSL) to accomplish
safety-critical tasks with various goals. To evaluate the method performance,
we build a benchmark based on the robot-fetching environment with a randomly
positioned obstacle and use expert or random policies to generate an offline
dataset. We compare RbSL with three offline GCRL algorithms and one offline
safe RL algorithm. As a result, our method outperforms the existing
state-of-the-art methods to a large extent. Furthermore, we validate the
practicality and effectiveness of RbSL by deploying it on a real Panda
manipulator. Code is available at https://github.com/Sunlighted/RbSL.git.
- Abstract(参考訳): オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
先行研究は、エージェントが準最適ポリシーを学ぶための様々なアプローチを示してきたが、これらの手法は、安全制約のような複雑な環境における多様な制約を扱う際に制限に直面する。
安全性を考慮せずに目標達成を優先するアプローチもあれば、トレーニング効率を犠牲にして安全性を過度に重視するアプローチもある。
本稿では、制約付きオフラインGCRLの問題点を考察し、様々な目標を達成するために、リカバリベース監視学習(RbSL)と呼ばれる新しい手法を提案する。
手法の性能を評価するために,ランダムに位置決めされた障害物を持つロボットフェッチ環境に基づくベンチマークを構築し,専門家あるいはランダムポリシーを用いてオフラインデータセットを生成する。
RbSLを3つのオフラインGCRLアルゴリズムと1つのオフラインセーフRLアルゴリズムと比較する。
その結果,本手法は既存の最先端手法よりも大幅に優れていた。
さらに,実際のパンダマニピュレータに配置することにより,rbslの実用性と有効性を検証する。
コードはhttps://github.com/Sunlighted/RbSL.gitで入手できる。
関連論文リスト
- FOSP: Fine-tuning Offline Safe Policy through World Models [3.7971075341023526]
モデルに基づく強化学習(RL)は、高次元タスクを扱う訓練効率と能力を示した。
しかしながら、以前の作業は、実際のデプロイメントにおけるオンライン探索のために、依然として安全上の課題を生じさせている。
本稿では、オフラインで訓練されたポリシーを微調整することで、視覚に基づくロボットタスクの展開段階における安全性をさらに向上することを目的とする。
論文 参考訳(メタデータ) (2024-07-06T03:22:57Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Constrained Decision Transformer for Offline Safe Reinforcement Learning [16.485325576173427]
我々は、新しい多目的最適化の観点から、オフラインセーフなRL問題を考察する。
本稿では,デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-14T21:27:10Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning [15.841609263723575]
安全オフライン強化学習(RL)の問題点について検討する。
目標は、オフラインデータのみに与えられる安全制約を満たしつつ、環境とのさらなる相互作用を伴わずに、長期的な報酬を最大化する政策を学習することである。
安全なRLとオフラインのRLの手法を組み合わせれば、準最適解しか学習できないことを示す。
論文 参考訳(メタデータ) (2021-07-19T16:30:14Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。