論文の概要: GenSafe: A Generalizable Safety Enhancer for Safe Reinforcement Learning Algorithms Based on Reduced Order Markov Decision Process Model
- arxiv url: http://arxiv.org/abs/2406.03912v1
- Date: Thu, 6 Jun 2024 09:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 15:29:45.887057
- Title: GenSafe: A Generalizable Safety Enhancer for Safe Reinforcement Learning Algorithms Based on Reduced Order Markov Decision Process Model
- Title(参考訳): GenSafe: 低次マルコフ決定プロセスモデルに基づく安全強化学習アルゴリズムの一般化可能な安全性向上
- Authors: Zhehua Zhou, Xuan Xie, Jiayang Song, Zhan Shu, Lei Ma,
- Abstract要約: 安全強化学習(SRL)アルゴリズムにGenizable Safety enhancer(GenSafe)を導入する。
GenSafeは、当初のコスト制約から再構成されたROMDPベースの制約を解決することで、エージェントが取るアクションを洗練し、制約満足度を高める。
その結果,特に早期学習段階における安全性能の向上だけでなく,タスク性能を満足なレベルに維持できることが示唆された。
- 参考スコア(独自算出の注目度): 8.915288771953545
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although deep reinforcement learning has demonstrated impressive achievements in controlling various autonomous systems, e.g., autonomous vehicles or humanoid robots, its inherent reliance on random exploration raises safety concerns in their real-world applications. To improve system safety during the learning process, a variety of Safe Reinforcement Learning (SRL) algorithms have been proposed, which usually incorporate safety constraints within the Constrained Markov Decision Process (CMDP) framework. However, the efficacy of these SRL algorithms often relies on accurate function approximations, a task that is notably challenging to accomplish in the early learning stages due to data insufficiency. To address this problem, we introduce a Genralizable Safety enhancer (GenSafe) in this work. Leveraging model order reduction techniques, we first construct a Reduced Order Markov Decision Process (ROMDP) as a low-dimensional proxy for the original cost function in CMDP. Then, by solving ROMDP-based constraints that are reformulated from the original cost constraints, the proposed GenSafe refines the actions taken by the agent to enhance the possibility of constraint satisfaction. Essentially, GenSafe acts as an additional safety layer for SRL algorithms, offering broad compatibility across diverse SRL approaches. The performance of GenSafe is examined on multiple SRL benchmark problems. The results show that, it is not only able to improve the safety performance, especially in the early learning phases, but also to maintain the task performance at a satisfactory level.
- Abstract(参考訳): 深層強化学習は、自動運転車やヒューマノイドロボットなどの様々な自律システムの制御において、目覚ましい成果を示しているが、ランダムな探索に依存しているため、現実の応用における安全性の懸念が高まる。
学習過程におけるシステム安全性を改善するために,制約付きマルコフ決定プロセス(CMDP)フレームワークに安全性制約を組み込んだ,様々な安全強化学習アルゴリズムが提案されている。
しかし、これらのSRLアルゴリズムの有効性は、しばしば正確な関数近似に依存している。
この問題に対処するため,本稿ではGenralizable Safety enhancer(GenSafe)を紹介する。
モデルオーダー削減技術を活用し,CMDPの原価関数の低次元プロキシとして,まずROMDP(Reduceed Order Markov Decision Process)を構築した。
そこで提案したGenSafeは,ROMDPに基づく制約を原コスト制約から再定義することで,エージェントのアクションを洗練し,制約満足度を高める。
基本的に、GenSafeはSRLアルゴリズムのための追加の安全レイヤとして機能し、様々なSRLアプローチにまたがる幅広い互換性を提供する。
複数のSRLベンチマーク問題に対してGenSafeの性能について検討した。
その結果,特に早期の学習段階において,安全性能を向上させるだけでなく,タスク性能を満足できるレベルに維持できることが示唆された。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Safe Exploration in Reinforcement Learning: A Generalized Formulation
and Algorithms [8.789204441461678]
本稿では,安全な探査のためのメタアルゴリズムであるMASEの形で,安全な探査(GSE)問題の解を提案する。
提案アルゴリズムは,グリッドワールドおよびセーフティガイムベンチマークにおける最先端アルゴリズムよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-05T00:47:09Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safe and Sample-efficient Reinforcement Learning for Clustered Dynamic
Environments [4.111899441919165]
本研究は,2つの課題に対処する安全かつサンプル効率の強化学習(RL)フレームワークを提案する。
我々は、セーフセットアルゴリズム(SSA)を用いて、名目制御の監視と修正を行い、クラスタリングされた動的環境におけるSSA+RLの評価を行う。
我々のフレームワークは、トレーニング中の他の安全なRL手法と比較して安全性が向上し、エピソードが大幅に少ないタスクを解決できる。
論文 参考訳(メタデータ) (2023-03-24T20:29:17Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe reinforcement learning for multi-energy management systems with
known constraint functions [0.0]
強化学習(Reinforcement Learning, RL)は, 多エネルギー管理システムにおける最適制御手法である。
我々はSafeFallbackとGiveSafeという2つの新しい安全なRL手法を提案する。
シミュレーションされたマルチエネルギーシステムのケーススタディでは、どちらの手法も非常に高い実用性から始めることを示した。
論文 参考訳(メタデータ) (2022-07-08T11:33:53Z) - SafeRL-Kit: Evaluating Efficient Reinforcement Learning Methods for Safe
Autonomous Driving [12.925039760573092]
我々はSafeRL-Kitをリリースし、自動運転タスクのための安全なRLメソッドをベンチマークする。
SafeRL-Kitには、セーフ・レイヤ、リカバリ・RL、オフ・ポリティ・ラグランジアン・メソッド、Fasible Actor-Criticなど、ゼロ制約違反タスクに特化した最新のアルゴリズムがいくつか含まれている。
我々は、SafeRL-Kitで上記のアルゴリズムの比較評価を行い、安全自動運転の有効性について光を当てた。
論文 参考訳(メタデータ) (2022-06-17T03:23:51Z) - Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and
Benchmarking [12.719948223824483]
強化学習(RL)アルゴリズムは、多くの現実世界のタスクにおいて、その潜在能力を解き放つために不可欠である。
しかしながら、バニラRLと最も安全なRLアプローチは安全性を保証するものではない。
本稿では,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。
本稿では、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2022-05-13T16:34:36Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。