論文の概要: Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery
- arxiv url: http://arxiv.org/abs/2306.13944v1
- Date: Sat, 24 Jun 2023 12:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 17:59:07.188900
- Title: Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery
- Title(参考訳): デッドエンド回避とリカバリによる安全強化学習
- Authors: Xiao Zhang, Hai Zhang, Hongtu Zhou, Chang Huang, Di Zhang, Chen Ye,
Junqiao Zhao
- Abstract要約: 安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
- 参考スコア(独自算出の注目度): 13.333197887318168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety is one of the main challenges in applying reinforcement learning to
realistic environmental tasks. To ensure safety during and after training
process, existing methods tend to adopt overly conservative policy to avoid
unsafe situations. However, overly conservative policy severely hinders the
exploration, and makes the algorithms substantially less rewarding. In this
paper, we propose a method to construct a boundary that discriminates safe and
unsafe states. The boundary we construct is equivalent to distinguishing
dead-end states, indicating the maximum extent to which safe exploration is
guaranteed, and thus has minimum limitation on exploration. Similar to Recovery
Reinforcement Learning, we utilize a decoupled RL framework to learn two
policies, (1) a task policy that only considers improving the task performance,
and (2) a recovery policy that maximizes safety. The recovery policy and a
corresponding safety critic are pretrained on an offline dataset, in which the
safety critic evaluates upper bound of safety in each state as awareness of
environmental safety for the agent. During online training, a behavior
correction mechanism is adopted, ensuring the agent to interact with the
environment using safe actions only. Finally, experiments of continuous control
tasks demonstrate that our approach has better task performance with less
safety violations than state-of-the-art algorithms.
- Abstract(参考訳): 安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
トレーニングプロセス中の安全性を確保するため、既存の手法では、過度に保守的なポリシーを採用して安全でない状況を避ける傾向にある。
しかし、過度に保守的な政策は探検を著しく妨げ、アルゴリズムの報酬を実質的に減らした。
本論文では,安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々が構築する境界は、デッドエンド状態の識別と等価であり、安全な探検が保証される最大範囲を示し、探索に最小の制限がある。
リカバリ強化学習と同様に,脱結合したrlフレームワークを用いて,(1)タスク性能向上のみを考慮に入れたタスクポリシ,(2)安全性を最大化するリカバリポリシの2つのポリシを学習する。
安全評論家は、各州における安全の上限をエージェントの環境安全の意識として評価するオフラインデータセット上で、回復方針と対応する安全評論家とを事前訓練する。
オンライントレーニング中に行動修正機構が採用され、エージェントが安全な行動のみを使用して環境と対話することを保証する。
最後に、連続制御タスクの実験により、我々の手法は最先端のアルゴリズムよりも安全性違反が少なく、タスク性能が良いことを示した。
関連論文リスト
- Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Verifiably Safe Exploration for End-to-End Reinforcement Learning [17.401496872603943]
本稿では,視覚的入力によるエンドツーエンドポリシーの形式的安全性制約の実施に向けた最初のアプローチを提案する。
厳密な制約の存在下で安全に探索することの難しさを強調する新しいベンチマークで評価されている。
論文 参考訳(メタデータ) (2020-07-02T16:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。