論文の概要: Safe Reinforcement Learning with Contrastive Risk Prediction
- arxiv url: http://arxiv.org/abs/2209.09648v1
- Date: Sat, 10 Sep 2022 18:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 17:32:31.461830
- Title: Safe Reinforcement Learning with Contrastive Risk Prediction
- Title(参考訳): 対比的リスク予測を用いた安全強化学習
- Authors: Hanping Zhang, Yuhong Guo
- Abstract要約: 本稿では,安全でない状態につながる状態-作用ペアの確率を予測するために,統計的コントラスト分類器を学習する安全RLのリスク防止訓練手法を提案する。
予測されたリスク確率に基づいて、リスク防止トラジェクトリを収集し、報酬関数をリスクペナルティで再形成して、安全なRLポリシーを導き出すことができる。
その結果,提案手法は最先端のモデルベース手法と同等の性能を示し,従来のモデルフリーなRL手法よりも優れていた。
- 参考スコア(独自算出の注目度): 35.80144544954927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As safety violations can lead to severe consequences in real-world robotic
applications, the increasing deployment of Reinforcement Learning (RL) in
robotic domains has propelled the study of safe exploration for reinforcement
learning (safe RL). In this work, we propose a risk preventive training method
for safe RL, which learns a statistical contrastive classifier to predict the
probability of a state-action pair leading to unsafe states. Based on the
predicted risk probabilities, we can collect risk preventive trajectories and
reshape the reward function with risk penalties to induce safe RL policies. We
conduct experiments in robotic simulation environments. The results show the
proposed approach has comparable performance with the state-of-the-art
model-based methods and outperforms conventional model-free safe RL approaches.
- Abstract(参考訳): ロボット分野における強化学習(Reinforcement Learning, RL)の展開は, 安全性違反が現実世界のロボットアプリケーションに深刻な影響をもたらす可能性があるため, 強化学習(reforcement learning, RL)のための安全な探索研究が推進されている。
本研究では,安全でない状態につながる状態-動作ペアの確率を予測するために,統計的対比分類器を学習するsafe rlのリスク予防訓練手法を提案する。
予測されたリスク確率に基づいて、リスク防止トラジェクトリを収集し、報酬関数をリスクペナルティで再形成し、安全なRLポリシーを導き出す。
ロボットシミュレーション環境で実験を行う。
その結果,提案手法は最先端のモデルベース手法と同等の性能を示し,従来のモデルフリーなRL手法よりも優れていた。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding [5.5929450570003185]
未知のブラックボックス環境におけるRLエージェントのトレーニングは、ドメイン/タスクに関する事前の知識が利用できない場合にさらに安全性の高いリスクをもたらす。
本稿では、トレーニング中の状態-動作ペアの安全性と安全性を区別する新しいポストシールド技術であるADVICE(Adaptive Shielding with a Contrastive Autoencoder)を紹介する。
論文 参考訳(メタデータ) (2024-05-28T13:47:21Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。