論文の概要: Provably Safe PAC-MDP Exploration Using Analogies
- arxiv url: http://arxiv.org/abs/2007.03574v2
- Date: Mon, 22 Mar 2021 14:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 18:21:38.646450
- Title: Provably Safe PAC-MDP Exploration Using Analogies
- Title(参考訳): アナロジーを用いた安全なpac-mdp探査
- Authors: Melrose Roderick, Vaishnavh Nagarajan, J. Zico Kolter
- Abstract要約: 安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
- 参考スコア(独自算出の注目度): 87.41775218021044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in applying reinforcement learning to safety-critical domains
is understanding how to balance exploration (needed to attain good performance
on the task) with safety (needed to avoid catastrophic failure). Although a
growing line of work in reinforcement learning has investigated this area of
"safe exploration," most existing techniques either 1) do not guarantee safety
during the actual exploration process; and/or 2) limit the problem to a priori
known and/or deterministic transition dynamics with strong smoothness
assumptions. Addressing this gap, we propose Analogous Safe-state Exploration
(ASE), an algorithm for provably safe exploration in MDPs with unknown,
stochastic dynamics. Our method exploits analogies between state-action pairs
to safely learn a near-optimal policy in a PAC-MDP sense. Additionally, ASE
also guides exploration towards the most task-relevant states, which
empirically results in significant improvements in terms of sample efficiency,
when compared to existing methods.
- Abstract(参考訳): 安全クリティカルな領域に強化学習を適用する上で重要な課題は、探索(タスクの優れたパフォーマンスを達成するために必要)と安全(破滅的な失敗を避けるために必要)のバランスをとる方法を理解することである。
強化学習における多くの研究が、この「安全な探検」の領域を調査しているが、既存の技術もほとんどである。
1) 実際の探査過程での安全を保証していないこと,及び/又は
2) この問題を、強い滑らかさを仮定した既定および/または決定論的遷移ダイナミクスに限定する。
このギャップに対処するため,未知の確率力学を持つMDPにおける安全な探索法であるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
さらにASEは、既存の方法と比較してサンプル効率の面で著しく改善された、最もタスク関連のある状態への探索もガイドしている。
関連論文リスト
- Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safe Exploration in Reinforcement Learning: A Generalized Formulation
and Algorithms [8.789204441461678]
本稿では,安全な探査のためのメタアルゴリズムであるMASEの形で,安全な探査(GSE)問題の解を提案する。
提案アルゴリズムは,グリッドワールドおよびセーフティガイムベンチマークにおける最先端アルゴリズムよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-05T00:47:09Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Exploration Method for Reinforcement Learning under Existence of
Disturbance [1.1470070927586016]
我々は、障害の存在下での強化学習における安全な探索問題に対処する。
制御対象と外乱の部分的事前知識を用いた安全な探索手法を提案する。
逆振り子と4バー並列リンクロボットマニピュレータの数値シミュレーションにより,提案手法の有効性と有効性について述べる。
論文 参考訳(メタデータ) (2022-09-30T13:00:33Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Safe Reinforcement Learning in Constrained Markov Decision Processes [20.175139766171277]
本稿では,マルコフ決定過程を未知の安全制約下で探索・最適化するアルゴリズムSNO-MDPを提案する。
我々は、安全制約の満足度と累積報酬のほぼ最適性の両方を理論的に保証する。
論文 参考訳(メタデータ) (2020-08-15T02:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。