論文の概要: Skill-based Safe Reinforcement Learning with Risk Planning
- arxiv url: http://arxiv.org/abs/2505.01619v1
- Date: Fri, 02 May 2025 22:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.195891
- Title: Skill-based Safe Reinforcement Learning with Risk Planning
- Title(参考訳): リスクプランニングによるスキルベースの安全強化学習
- Authors: Hanping Zhang, Yuhong Guo,
- Abstract要約: セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、RLエージェントが現実世界の環境と対話して学習を行う場合の安全性を保証することを目的としている。
そこで本稿では, オフラインのオフラインデモデータを活用することにより, 効果的な安全なRLを実現するための新しいセーフスキルプランニング(SSkP)手法を提案する。
- 参考スコア(独自算出の注目度): 23.15178050525514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe Reinforcement Learning (Safe RL) aims to ensure safety when an RL agent conducts learning by interacting with real-world environments where improper actions can induce high costs or lead to severe consequences. In this paper, we propose a novel Safe Skill Planning (SSkP) approach to enhance effective safe RL by exploiting auxiliary offline demonstration data. SSkP involves a two-stage process. First, we employ PU learning to learn a skill risk predictor from the offline demonstration data. Then, based on the learned skill risk predictor, we develop a novel risk planning process to enhance online safe RL and learn a risk-averse safe policy efficiently through interactions with the online RL environment, while simultaneously adapting the skill risk predictor to the environment. We conduct experiments in several benchmark robotic simulation environments. The experimental results demonstrate that the proposed approach consistently outperforms previous state-of-the-art safe RL methods.
- Abstract(参考訳): セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、RLエージェントが、不適切なアクションが高コストを誘発したり、重大な結果をもたらすような現実世界環境と対話することで学習を行う場合の安全性を保証することを目的とする。
本稿では,効率的な安全RLを実現するための新しい安全スキルプランニング(SSkP)手法を提案する。
SSkPは2段階のプロセスを含む。
まず、我々はPU学習を用いて、オフラインのデモデータからスキルリスク予測器を学習する。
そして、学習したスキルリスク予測器に基づいて、オンラインの安全RLを強化し、オンラインのRL環境とのインタラクションを通じてリスク回避型安全政策を効果的に学習し、同時にスキルリスク予測器を環境に適応させる新しいリスク計画プロセスを開発する。
いくつかのベンチマークロボットシミュレーション環境で実験を行う。
実験の結果,提案手法は従来の安全RL法よりも一貫して優れていることがわかった。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding [5.5929450570003185]
我々は、トレーニング中の状態-動作ペアの安全性と安全性を区別する新しい技術であるmboxADVICE(Adaptive Shielding with a Contrastive Autoencoder)を紹介する。
総合実験の結果,ADVICEはトレーニング中の安全違反(約50%)を有意に低減し,他の手法と比較して競争力のある結果が得られた。
論文 参考訳(メタデータ) (2024-05-28T13:47:21Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Reinforcement Learning with Contrastive Risk Prediction [35.80144544954927]
本稿では,安全でない状態につながる状態-作用ペアの確率を予測するために,統計的コントラスト分類器を学習する安全RLのリスク防止訓練手法を提案する。
予測されたリスク確率に基づいて、リスク防止トラジェクトリを収集し、報酬関数をリスクペナルティで再形成して、安全なRLポリシーを導き出すことができる。
その結果,提案手法は最先端のモデルベース手法と同等の性能を示し,従来のモデルフリーなRL手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-10T18:54:38Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。