論文の概要: Provably Safe Reinforcement Learning: A Theoretical and Experimental
Comparison
- arxiv url: http://arxiv.org/abs/2205.06750v2
- Date: Tue, 9 May 2023 14:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 16:43:49.613348
- Title: Provably Safe Reinforcement Learning: A Theoretical and Experimental
Comparison
- Title(参考訳): 確実に安全な強化学習:理論的および実験的比較
- Authors: Hanna Krasowski, Jakob Thumm, Marlon M\"uller, Lukas Sch\"afer, Xiao
Wang, Matthias Althoff
- Abstract要約: 本稿では,既存の安全な強化学習手法の分類について紹介する。
本稿では,連続的および離散的な動作空間の理論的基礎を提示し,提案手法の性能を実証的に評価する。
倒立振子および四重項安定化タスクに関する実験は、すべての証明可能な安全な方法が常に安全であることを示している。
- 参考スコア(独自算出の注目度): 9.861651769846578
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ensuring safety of reinforcement learning (RL) algorithms is crucial to
unlock their potential for many real-world tasks. However, vanilla RL does not
guarantee safety. In recent years, several methods have been proposed to
provide safety guarantees for RL by design. Yet, there is no comprehensive
comparison of these provably safe RL methods. We therefore introduce a
categorization of existing provably safe RL methods, present the theoretical
foundations for both continuous and discrete action spaces, and benchmark the
methods' performance empirically. The methods are categorized based on how the
action is adapted by the safety method: action replacement, action projection,
and action masking. Our experiments on an inverted pendulum and quadrotor
stabilization task show that all provably safe methods are indeed always safe.
Furthermore, their trained performance is comparable to unsafe baselines. The
benchmarking suggests that different provably safe RL approaches should be
selected depending on safety specifications, RL algorithms, and type of action
space.
- Abstract(参考訳): 強化学習(RL)アルゴリズムの安全性の確保は、実世界の多くのタスクにおいてその可能性の解放に不可欠である。
しかし、バニラRLは安全を保証していない。
近年,RLの設計による安全性を保証する手法が提案されている。
しかし、これらの証明可能な安全なRL法を包括的に比較することはできない。
そこで我々は,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の理論的基礎を示し,その性能を実証的に評価する。
これらの方法は、アクション置換、アクション投影、およびアクションマスキングという安全方法によって、アクションがどのように適応されるかに基づいて分類される。
倒立振子および四重項安定化タスクに関する実験は、すべての証明可能な安全な方法が常に安全であることを示している。
さらに、トレーニングされたパフォーマンスは安全でないベースラインに匹敵する。
ベンチマークでは、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、異なる安全なRLアプローチを選択するべきであることを示唆している。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safe and Sample-efficient Reinforcement Learning for Clustered Dynamic
Environments [4.111899441919165]
本研究は,2つの課題に対処する安全かつサンプル効率の強化学習(RL)フレームワークを提案する。
我々は、セーフセットアルゴリズム(SSA)を用いて、名目制御の監視と修正を行い、クラスタリングされた動的環境におけるSSA+RLの評価を行う。
我々のフレームワークは、トレーニング中の他の安全なRL手法と比較して安全性が向上し、エピソードが大幅に少ないタスクを解決できる。
論文 参考訳(メタデータ) (2023-03-24T20:29:17Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Ablation Study of How Run Time Assurance Impacts the Training and
Performance of Reinforcement Learning Agents [5.801944210870593]
本研究では,評価ベストプラクティスを用いたアブレーション研究を行い,実行時間保証(RTA)が効果的な学習に与える影響について検討する。
私たちの結論は、安全な強化学習の最も有望な方向性に光を当てました。
論文 参考訳(メタデータ) (2022-07-08T20:15:15Z) - Safe reinforcement learning for multi-energy management systems with
known constraint functions [0.0]
強化学習(Reinforcement Learning, RL)は, 多エネルギー管理システムにおける最適制御手法である。
我々はSafeFallbackとGiveSafeという2つの新しい安全なRL手法を提案する。
シミュレーションされたマルチエネルギーシステムのケーススタディでは、どちらの手法も非常に高い実用性から始めることを示した。
論文 参考訳(メタデータ) (2022-07-08T11:33:53Z) - SafeRL-Kit: Evaluating Efficient Reinforcement Learning Methods for Safe
Autonomous Driving [12.925039760573092]
我々はSafeRL-Kitをリリースし、自動運転タスクのための安全なRLメソッドをベンチマークする。
SafeRL-Kitには、セーフ・レイヤ、リカバリ・RL、オフ・ポリティ・ラグランジアン・メソッド、Fasible Actor-Criticなど、ゼロ制約違反タスクに特化した最新のアルゴリズムがいくつか含まれている。
我々は、SafeRL-Kitで上記のアルゴリズムの比較評価を行い、安全自動運転の有効性について光を当てた。
論文 参考訳(メタデータ) (2022-06-17T03:23:51Z) - Safe Model-Based Reinforcement Learning Using Robust Control Barrier
Functions [43.713259595810854]
安全に対処する一般的なアプローチとして、安全層が追加され、RLアクションを安全な一連のアクションに投影する。
本稿では,モデルベースRLフレームワークにおけるロバスト制御バリア機能層としての安全性について述べる。
論文 参考訳(メタデータ) (2021-10-11T17:00:45Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。