論文の概要: Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks
- arxiv url: http://arxiv.org/abs/2212.05727v1
- Date: Mon, 12 Dec 2022 06:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 18:16:03.490036
- Title: Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks
- Title(参考訳): 安全課題に対するモデルフリー強化学習の評価
- Authors: Linrui Zhang and Qin Zhang and Li Shen and Bo Yuan and Xueqian Wang
and Dacheng Tao
- Abstract要約: 本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
- 参考スコア(独自算出の注目度): 70.76757529955577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety comes first in many real-world applications involving autonomous
agents. Despite a large number of reinforcement learning (RL) methods focusing
on safety-critical tasks, there is still a lack of high-quality evaluation of
those algorithms that adheres to safety constraints at each decision step under
complex and unknown dynamics. In this paper, we revisit prior work in this
scope from the perspective of state-wise safe RL and categorize them as
projection-based, recovery-based, and optimization-based approaches,
respectively. Furthermore, we propose Unrolling Safety Layer (USL), a joint
method that combines safety optimization and safety projection. This novel
technique explicitly enforces hard constraints via the deep unrolling
architecture and enjoys structural advantages in navigating the trade-off
between reward improvement and constraint satisfaction. To facilitate further
research in this area, we reproduce related algorithms in a unified pipeline
and incorporate them into SafeRL-Kit, a toolkit that provides off-the-shelf
interfaces and evaluation utilities for safety-critical tasks. We then perform
a comparative study of the involved algorithms on six benchmarks ranging from
robotic control to autonomous driving. The empirical results provide an insight
into their applicability and robustness in learning zero-cost-return policies
without task-dependent handcrafting. The project page is available at
https://sites.google.com/view/saferlkit.
- Abstract(参考訳): 安全性は、自律エージェントを含む多くの現実世界のアプリケーションで最初に提供される。
安全クリティカルなタスクに焦点を絞った強化学習(RL)手法は多数存在するが、複雑な未知のダイナミクスの下で各決定ステップにおける安全性制約に準拠するアルゴリズムの高品質な評価は依然として不足している。
本稿では,この領域における先行研究を,状態的に安全なRLの観点から再考し,それぞれプロジェクションベース,リカバリベース,最適化ベースのアプローチとして分類する。
さらに,安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この新手法はディープアンロールアーキテクチャを通じて明示的に厳しい制約を強制し、報酬改善と制約満足度の間のトレードオフをナビゲートする構造上の利点を享受する。
この領域のさらなる研究を容易にするために、我々は、関連するアルゴリズムを統一パイプラインで再現し、それらをSafeRL-Kitに組み込む。
次に、ロボット制御から自律運転までの6つのベンチマークで、関連するアルゴリズムの比較研究を行う。
実験結果から,タスク依存の手工法を使わずにゼロコスト・リターン政策を学習する際の適用性と堅牢性について考察した。
プロジェクトページはhttps://sites.google.com/view/saferlkit.comで閲覧できる。
関連論文リスト
- GenSafe: A Generalizable Safety Enhancer for Safe Reinforcement Learning Algorithms Based on Reduced Order Markov Decision Process Model [8.915288771953545]
安全強化学習(SRL)アルゴリズムにGenizable Safety enhancer(GenSafe)を導入する。
GenSafeは、当初のコスト制約から再構成されたROMDPベースの制約を解決することで、エージェントが取るアクションを洗練し、制約満足度を高める。
その結果,特に早期学習段階における安全性能の向上だけでなく,タスク性能を満足なレベルに維持できることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T09:51:30Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark [12.660770759420286]
本稿では,単一エージェントとマルチエージェントの両方のシナリオにおいて,安全クリティカルなタスクを含む環境スイートであるSafety-Gymnasiumを提案する。
Safe Policy Optimization (SafePO) という,最先端のSafeRLアルゴリズム16種からなるアルゴリズムのライブラリを提供する。
論文 参考訳(メタデータ) (2023-10-19T08:19:28Z) - Searching for Optimal Runtime Assurance via Reachability and
Reinforcement Learning [2.422636931175853]
あるプラントのランタイム保証システム(RTA)は、バックアップコントローラで安全性を確保しながら、信頼できないまたは実験的なコントローラの運動を可能にする。
既存のRTA設計戦略は、過度に保守的であることで知られており、原則として、安全違反につながる可能性がある。
本稿では、最適RTA設計問題を定式化し、それを解決するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-06T14:45:57Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Improving Safety in Deep Reinforcement Learning using Unsupervised
Action Planning [4.2955354157580325]
深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。
そこで本稿では,オンライン強化学習アルゴリズムの安全性を向上させるために,教師なし行動計画の新たな手法を提案する。
提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬を得られることを示す。
論文 参考訳(メタデータ) (2021-09-29T10:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。