論文の概要: Probabilistic Counterexample Guidance for Safer Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.04927v1
- Date: Mon, 10 Jul 2023 22:28:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 16:52:34.505630
- Title: Probabilistic Counterexample Guidance for Safer Reinforcement Learning
- Title(参考訳): 安全強化学習のための確率的対外ガイダンス
- Authors: Xiaotong Ji and Antonio Filieri
- Abstract要約: セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
- 参考スコア(独自算出の注目度): 1.279257604152629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe exploration aims at addressing the limitations of Reinforcement Learning
(RL) in safety-critical scenarios, where failures during trial-and-error
learning may incur high costs. Several methods exist to incorporate external
knowledge or to use proximal sensor data to limit the exploration of unsafe
states. However, reducing exploration risks in unknown environments, where an
agent must discover safety threats during exploration, remains challenging. In
this paper, we target the problem of safe exploration by guiding the training
with counterexamples of the safety requirement. Our method abstracts both
continuous and discrete state-space systems into compact abstract models
representing the safety-relevant knowledge acquired by the agent during
exploration. We then exploit probabilistic counterexample generation to
construct minimal simulation submodels eliciting safety requirement violations,
where the agent can efficiently train offline to refine its policy towards
minimising the risk of safety violations during the subsequent online
exploration. We demonstrate our method's effectiveness in reducing safety
violations during online exploration in preliminary experiments by an average
of 40.3% compared with QL and DQN standard algorithms and 29.1% compared with
previous related work, while achieving comparable cumulative rewards with
respect to unrestricted exploration and alternative approaches.
- Abstract(参考訳): セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、安全でない状態の探索を制限するために近位センサーデータを使用する方法がいくつか存在する。
しかし、エージェントが探索中に安全の脅威を発見する必要がある未知の環境での探索のリスクを減らすことは依然として困難である。
本稿では,安全要件の反例で訓練を指導することにより,安全探索の課題を対象とする。
本手法は,連続状態空間系と離散状態空間系の両方を,探索中にエージェントが取得した安全関連知識を表すコンパクトな抽象モデルに抽象化する。
次に、確率的逆例生成を利用して、安全要件違反を誘発する最小限のシミュレーションサブモデルを構築し、エージェントはオフライントレーニングを効率よく行え、その後のオンライン探索における安全性違反のリスクを最小限に抑えるためのポリシーを洗練することができる。
予備実験におけるオンライン探索における安全性侵害の低減効果を,qlおよびdqn標準アルゴリズムと比較して平均40.3%,従来と比べ29.1%で実証し,非制限探索と代替アプローチに関して同等の累積報酬を得た。
関連論文リスト
- Anomalous State Sequence Modeling to Enhance Safety in Reinforcement Learning [0.0]
本稿では,RLの安全性を高めるために,異常状態列を利用した安全強化学習(RL)手法を提案する。
自動運転車を含む複数の安全クリティカルな環境の実験において、我々のソリューションアプローチはより安全なポリシーをうまく学習する。
論文 参考訳(メタデータ) (2024-07-29T10:30:07Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Exploration Method for Reinforcement Learning under Existence of
Disturbance [1.1470070927586016]
我々は、障害の存在下での強化学習における安全な探索問題に対処する。
制御対象と外乱の部分的事前知識を用いた安全な探索手法を提案する。
逆振り子と4バー並列リンクロボットマニピュレータの数値シミュレーションにより,提案手法の有効性と有効性について述べる。
論文 参考訳(メタデータ) (2022-09-30T13:00:33Z) - Safe Reinforcement Learning with Contrastive Risk Prediction [35.80144544954927]
本稿では,安全でない状態につながる状態-作用ペアの確率を予測するために,統計的コントラスト分類器を学習する安全RLのリスク防止訓練手法を提案する。
予測されたリスク確率に基づいて、リスク防止トラジェクトリを収集し、報酬関数をリスクペナルティで再形成して、安全なRLポリシーを導き出すことができる。
その結果,提案手法は最先端のモデルベース手法と同等の性能を示し,従来のモデルフリーなRL手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-10T18:54:38Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。