論文の概要: Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis
- arxiv url: http://arxiv.org/abs/2312.11314v1
- Date: Mon, 18 Dec 2023 16:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:31:48.824571
- Title: Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis
- Title(参考訳): 強化学習における安全進歩:制御政策合成のための安全ベイズ探索
- Authors: Rohan Mitta, Hosein Hasanbeig, Jun Wang, Daniel Kroening, Yiannis
Kantaros, Alessandro Abate
- Abstract要約: 本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 63.532413807686524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of maintaining safety during training in
Reinforcement Learning (RL), such that the safety constraint violations are
bounded at any point during learning. In a variety of RL applications the
safety of the agent is particularly important, e.g. autonomous platforms or
robots that work in proximity of humans. As enforcing safety during training
might severely limit the agent's exploration, we propose here a new
architecture that handles the trade-off between efficient progress and safety
during exploration. As the exploration progresses, we update via Bayesian
inference Dirichlet-Categorical models of the transition probabilities of the
Markov decision process that describes the environment dynamics. This paper
proposes a way to approximate moments of belief about the risk associated to
the action selection policy. We construct those approximations, and prove the
convergence results. We propose a novel method for leveraging the expectation
approximations to derive an approximate bound on the confidence that the risk
is below a certain level. This approach can be easily interleaved with RL and
we present experimental results to showcase the performance of the overall
architecture.
- Abstract(参考訳): 本稿では,Reinforcement Learning (RL) におけるトレーニング中の安全維持の問題に対処する。
様々なRLアプリケーションにおいて、エージェントの安全性は特に重要であり、例えば、自律的なプラットフォームや人間に近い作業を行うロボットなどである。
訓練中の安全性の確保はエージェントの探索を著しく制限する可能性があるため、探索中の効率的な進捗と安全性の間のトレードオフを処理する新しいアーキテクチャを提案する。
探索が進むにつれて、我々は環境力学を記述するマルコフ決定過程の遷移確率のベイズ推論ディリクレ分類モデルを通じて更新する。
本稿では,行動選択政策に関連するリスクに関する信念の瞬間を近似する方法を提案する。
これらの近似を構築し、収束結果を証明する。
本研究では,予測近似を利用してリスクが一定のレベル以下であるという信頼度に近似した近似を導出する手法を提案する。
このアプローチはRLと容易にインターリーブでき、アーキテクチャ全体の性能を示す実験結果を示す。
関連論文リスト
- State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。