論文の概要: Revisiting Safe Exploration in Safe Reinforcement learning
- arxiv url: http://arxiv.org/abs/2409.01245v1
- Date: Mon, 2 Sep 2024 13:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 06:37:11.083581
- Title: Revisiting Safe Exploration in Safe Reinforcement learning
- Title(参考訳): 安全強化学習における安全な探索の再考
- Authors: David Eckel, Baohe Zhang, Joschka Bödecker,
- Abstract要約: 我々は,トレーニング中の安全性に対処する新しい測定基準であるEMCCを導入する。
EMCCは特に長期の安全違反と時折の安全違反の区別に有効である。
本稿では,アルゴリズム設計のための高速な評価を可能にする,新しい軽量なベンチマークタスクを提案する。
- 参考スコア(独自算出の注目度): 0.098314893665023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe reinforcement learning (SafeRL) extends standard reinforcement learning with the idea of safety, where safety is typically defined through the constraint of the expected cost return of a trajectory being below a set limit. However, this metric fails to distinguish how costs accrue, treating infrequent severe cost events as equal to frequent mild ones, which can lead to riskier behaviors and result in unsafe exploration. We introduce a new metric, expected maximum consecutive cost steps (EMCC), which addresses safety during training by assessing the severity of unsafe steps based on their consecutive occurrence. This metric is particularly effective for distinguishing between prolonged and occasional safety violations. We apply EMMC in both on- and off-policy algorithm for benchmarking their safe exploration capability. Finally, we validate our metric through a set of benchmarks and propose a new lightweight benchmark task, which allows fast evaluation for algorithm design.
- Abstract(参考訳): 安全強化学習(SafeRL)は、安全という概念で標準的な強化学習を拡張している。
しかし、この指標はコストの上昇の程度を区別できず、頻繁な軽度イベントと同等の重大なコストイベントを扱い、リスクの高い振る舞いを招き、安全でない探索をもたらす可能性がある。
本研究では, トレーニング中の安全対策として, 安全でないステップの重大度を連続的発生に基づいて評価する, 新たな測定基準であるEMCCを導入する。
この指標は特に、長期間の安全違反と時折の安全違反の区別に有効である。
EMMCをオン・アンド・オフ・ポリシーのアルゴリズムに応用し,その安全性をベンチマークする。
最後に,ベンチマークによる評価を行い,アルゴリズム設計のための高速な評価を可能にする,新しい軽量ベンチマークタスクを提案する。
関連論文リスト
- Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safe Exploration in Reinforcement Learning: A Generalized Formulation
and Algorithms [8.789204441461678]
本稿では,安全な探査のためのメタアルゴリズムであるMASEの形で,安全な探査(GSE)問題の解を提案する。
提案アルゴリズムは,グリッドワールドおよびセーフティガイムベンチマークにおける最先端アルゴリズムよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-05T00:47:09Z) - Price of Safety in Linear Best Arm Identification [6.82469220191368]
線形フィードバックを用いた安全ベストアーム識別フレームワークを提案する。
エージェントは、未知のパラメータベクトルに線形に依存する段階的な安全制約を受ける。
本稿では,段階的安全性を確保しつつ,有意義なサンプル複雑性を実現するギャップベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-15T19:01:21Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Guiding Safe Exploration with Weakest Preconditions [15.469452301122177]
安全クリティカルな設定のための強化学習では、エージェントはあらゆる時点において安全制約に従うことが望ましい。
我々はこの安全な探索問題を解決するためにSPICEと呼ばれる新しいニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-28T14:58:41Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。