論文の概要: Guided Safe Shooting: model based reinforcement learning with safety
constraints
- arxiv url: http://arxiv.org/abs/2206.09743v1
- Date: Mon, 20 Jun 2022 12:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 14:51:12.128323
- Title: Guided Safe Shooting: model based reinforcement learning with safety
constraints
- Title(参考訳): 誘導型安全撮影: 安全制約付きモデルベース強化学習
- Authors: Giuseppe Paolo and Jonas Gonzalez-Billandon and Albert Thomas and
Bal\'azs K\'egl
- Abstract要約: 安全制約の最小限の違反でシステムを制御できるモデルベースのRLアプローチであるGuSS(Guid Safe Shooting)を導入する。
提案する安全プランナは3つあり,1つは単純なランダム・シューティング・ストラテジーに基づくもので,もう1つはより高度な分岐探索アルゴリズムMAP-Elitesに基づくものである。
- 参考スコア(独自算出の注目度): 4.431335899583956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last decade, reinforcement learning successfully solved complex
control tasks and decision-making problems, like the Go board game. Yet, there
are few success stories when it comes to deploying those algorithms to
real-world scenarios. One of the reasons is the lack of guarantees when dealing
with and avoiding unsafe states, a fundamental requirement in critical control
engineering systems. In this paper, we introduce Guided Safe Shooting (GuSS), a
model-based RL approach that can learn to control systems with minimal
violations of the safety constraints. The model is learned on the data
collected during the operation of the system in an iterated batch fashion, and
is then used to plan for the best action to perform at each time step. We
propose three different safe planners, one based on a simple random shooting
strategy and two based on MAP-Elites, a more advanced divergent-search
algorithm. Experiments show that these planners help the learning agent avoid
unsafe situations while maximally exploring the state space, a necessary aspect
when learning an accurate model of the system. Furthermore, compared to
model-free approaches, learning a model allows GuSS reducing the number of
interactions with the real-system while still reaching high rewards, a
fundamental requirement when handling engineering systems.
- Abstract(参考訳): 過去10年間、強化学習はgoボードゲームのような複雑な制御タスクと意思決定問題をうまく解決した。
しかし、これらのアルゴリズムを現実世界のシナリオにデプロイする上で成功例はほとんどない。
理由の1つは、クリティカルコントロールエンジニアリングシステムにおける基本的な要件である、安全でない状態の処理と回避における保証の欠如である。
本稿では,安全制約の最小限の違反でシステムを制御できるモデルベースのRLアプローチであるGuSS(Guid Safe Shooting)を紹介する。
モデルは、繰り返しバッチ方式でシステムの動作中に収集されたデータに基づいて学習され、その後、各ステップで実行する最善のアクションを計画するために使用される。
本研究では,単純なランダムシューティング戦略に基づくものと,より高度なダイバージェント探索アルゴリズムであるmap-elitesに基づくものという,3つの異なるセーフプランナーを提案する。
実験により、これらのプランナーは、システムの正確なモデルを学ぶ際に必要な側面である状態空間を最大限に探索しながら、学習エージェントが安全でない状況を避けるのに役立つことが示されている。
さらに、モデルなしのアプローチと比較して、モデルを学習することで、GuSSは、エンジニアリングシステムを扱う際の基本的な要件である高い報酬を得ながら、実際のシステムとのインタラクションの数を減らすことができる。
関連論文リスト
- Reinforcement Learning with Ensemble Model Predictive Safety
Certification [2.658598582858331]
教師なし探索は、安全クリティカルなタスクに強化学習アルゴリズムを配置することを防ぐ。
本稿では,モデルに基づく深層強化学習と管型モデル予測制御を組み合わせた新しいアルゴリズムを提案する。
以上の結果から,従来の強化学習法に比べて制約違反が著しく少ないことが示唆された。
論文 参考訳(メタデータ) (2024-02-06T17:42:39Z) - Hierarchical Framework for Interpretable and Probabilistic Model-Based
Safe Reinforcement Learning [1.3678669691302048]
本稿では,安全クリティカルシステムにおける深層強化学習の新たなアプローチを提案する。
確率論的モデリングと強化学習の利点と、解釈可能性の利点を兼ね備えている。
論文 参考訳(メタデータ) (2023-10-28T20:30:57Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safety and Liveness Guarantees through Reach-Avoid Reinforcement
Learning [24.56889192688925]
リーチ・アビド最適制御問題は、自律ロボットシステムの安全性と生存性保証の中心である。
性能目標を用いた最適制御問題を概ね解くための強化学習手法の最近の成功は、その認証問題への適用を魅力的にしている。
最近の研究は、安全型問題を扱うための強化学習機械の拡張を約束しており、その目的は和ではなく、時間とともに最小限(または最大)である。
論文 参考訳(メタデータ) (2021-12-23T00:44:38Z) - Towards Safe Continuing Task Reinforcement Learning [21.390201009230246]
再起動を必要とせずに継続するタスク設定で動作可能なアルゴリズムを提案する。
本手法は,安全な探索を通じて安全な政策を学習する上で,提案手法の能力を示す数値例で評価する。
論文 参考訳(メタデータ) (2021-02-24T22:12:25Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。