論文の概要: System III: Learning with Domain Knowledge for Safety Constraints
- arxiv url: http://arxiv.org/abs/2304.11593v1
- Date: Sun, 23 Apr 2023 09:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 17:33:22.558523
- Title: System III: Learning with Domain Knowledge for Safety Constraints
- Title(参考訳): システムIII:安全制約のためのドメイン知識による学習
- Authors: Fazl Barez, Hosien Hasanbieg, Alesandro Abbate
- Abstract要約: 本稿では,安全な探索とサンプル効率の向上を支援するために,ドメイン知識を取り入れた新しいフレームワークを提案する。
このアプローチでは、$textitSystem III$と呼ばれ、一階述語論理という形で安全に関するドメインエキスパートの知識を表現します。
提案手法が OpenAI の Gym および Safety-Gym 環境に与える影響を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning agents naturally learn from extensive exploration.
Exploration is costly and can be unsafe in $\textit{safety-critical}$ domains.
This paper proposes a novel framework for incorporating domain knowledge to
help guide safe exploration and boost sample efficiency. Previous approaches
impose constraints, such as regularisation parameters in neural networks, that
rely on large sample sets and often are not suitable for safety-critical
domains where agents should almost always avoid unsafe actions. In our
approach, called $\textit{System III}$, which is inspired by psychologists'
notions of the brain's $\textit{System I}$ and $\textit{System II}$, we
represent domain expert knowledge of safety in form of first-order logic. We
evaluate the satisfaction of these constraints via p-norms in state vector
space. In our formulation, constraints are analogous to hazards, objects, and
regions of state that have to be avoided during exploration. We evaluated the
effectiveness of the proposed method on OpenAI's Gym and Safety-Gym
environments. In all tasks, including classic Control and Safety Games, we show
that our approach results in safer exploration and sample efficiency.
- Abstract(参考訳): 強化学習エージェントは、広範な探索から自然に学ぶ。
探索はコストが高く、$\textit{safety- critical}$ domainでは安全ではない。
本稿では,安全な探索とサンプル効率の向上を支援するために,ドメイン知識を取り入れた新しいフレームワークを提案する。
従来のアプローチでは、大規模なサンプルセットに依存するニューラルネットワークの正規化パラメータなどの制約が課されており、エージェントが常に安全でないアクションを回避すべきセーフティクリティカルなドメインには適していないことが多い。
我々のアプローチでは、$\textit{System III}$と呼ばれ、心理学者が脳の$\textit{System I}$と$\textit{System II}$の概念に触発された。
状態ベクトル空間におけるこれらの制約の満足度をpノルムを用いて評価する。
我々の定式化では、制約は探索中に避けなければならない危険や対象、状態の領域と類似している。
提案手法が OpenAI の Gym および Safety-Gym 環境に与える影響を検討した。
古典的な制御と安全ゲームを含むあらゆるタスクにおいて、我々のアプローチはより安全な探索とサンプル効率をもたらすことを示す。
関連論文リスト
- Safe Guaranteed Exploration for Non-linear Systems [44.2908666969021]
本稿では,最適制御を用いた新しい安全な探索フレームワークを提案する。
本稿では,モデル予測制御を用いた効率的なSageMPC,SAfe保証探索手法を提案する。
自動車モデルを用いたSageMPCを用いた未知環境の安全な探索実験を行った。
論文 参考訳(メタデータ) (2024-02-09T17:26:26Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Near-Optimal Multi-Agent Learning for Safe Coverage Control [76.99020416197631]
マルチエージェントのカバレッジ制御問題では、エージェントは環境をナビゲートして、ある密度のカバレッジを最大化する位置に到達する。
本稿では,エージェントの安全性を保ちながら,その密度を効率よく学習し,カバレッジ問題を概ね解決することを目的とする。
まず、安全を確実に保証しながら、有限時間で最適範囲に近づいた結果を挙げる。
論文 参考訳(メタデータ) (2022-10-12T16:33:34Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Verifiably Safe Exploration for End-to-End Reinforcement Learning [17.401496872603943]
本稿では,視覚的入力によるエンドツーエンドポリシーの形式的安全性制約の実施に向けた最初のアプローチを提案する。
厳密な制約の存在下で安全に探索することの難しさを強調する新しいベンチマークで評価されている。
論文 参考訳(メタデータ) (2020-07-02T16:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。