論文の概要: Dynamic Shielding for Reinforcement Learning in Black-Box Environments
- arxiv url: http://arxiv.org/abs/2207.13446v1
- Date: Wed, 27 Jul 2022 10:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 14:04:07.381791
- Title: Dynamic Shielding for Reinforcement Learning in Black-Box Environments
- Title(参考訳): ブラックボックス環境における強化学習のための動的シールド
- Authors: Masaki Waga, Ezequiel Castellano, Sasinee Pruekprasert, Stefan
Klikovits, Toru Takisaka, and Ichiro Hasuo
- Abstract要約: サイバー物理システムにおける強化学習の利用は,学習中の安全性保証の欠如により困難である。
本稿では,事前のシステム知識を必要とせず,学習時の望ましくない行動を減らすことを目的とする。
本稿では,自動学習を用いた遮蔽と呼ばれるモデルベース安全なRL手法の拡張として,動的遮蔽を提案する。
- 参考スコア(独自算出の注目度): 2.696933675395521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is challenging to use reinforcement learning (RL) in cyber-physical
systems due to the lack of safety guarantees during learning. Although there
have been various proposals to reduce undesired behaviors during learning, most
of these techniques require prior system knowledge, and their applicability is
limited. This paper aims to reduce undesired behaviors during learning without
requiring any prior system knowledge. We propose dynamic shielding: an
extension of a model-based safe RL technique called shielding using automata
learning. The dynamic shielding technique constructs an approximate system
model in parallel with RL using a variant of the RPNI algorithm and suppresses
undesired explorations due to the shield constructed from the learned model.
Through this combination, potentially unsafe actions can be foreseen before the
agent experiences them. Experiments show that our dynamic shield significantly
decreases the number of undesired events during training.
- Abstract(参考訳): サイバーフィジカルシステムにおける強化学習(rl)の使用は,学習中の安全性保証の欠如から困難である。
学習中に望ましくない行動を減らすための様々な提案があるが、これらの手法の多くは事前のシステム知識を必要としており、適用性は限られている。
本稿では,事前のシステム知識を必要とせず,学習時の望ましくない行動を減らすことを目的とする。
本稿では,automatta learning を用いたモデルベースsafe rl 手法の拡張である dynamic shielding を提案する。
動的遮蔽法はRPNIアルゴリズムの変種を用いてRLと並列に近似システムモデルを構築し,学習モデルから構築したシールドによる望ましくない探索を抑制する。
この組み合わせにより、エージェントがそれらを経験する前に潜在的に安全でないアクションを予測できる。
実験により、我々のダイナミックシールドはトレーニング中の望ましくない事象の数を著しく減少させることが示された。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - A Secure Learning Control Strategy via Dynamic Camouflaging for Unknown
Dynamical Systems under Attacks [0.0]
本稿では、未知の線形時間不変サイバー物理システム(CPS)に対するセキュア強化学習(RL)に基づく制御手法を提案する。
本研究では,設計者による学習の探索段階において,攻撃者が動的モデルについて学習する攻撃シナリオについて考察する。
本稿では,動的カモフラージュに基づく攻撃耐性強化学習(ARRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-01T00:34:38Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。