論文の概要: Look Before You Leap: Safe Model-Based Reinforcement Learning with Human
Intervention
- arxiv url: http://arxiv.org/abs/2111.05819v1
- Date: Wed, 10 Nov 2021 17:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 15:05:59.143259
- Title: Look Before You Leap: Safe Model-Based Reinforcement Learning with Human
Intervention
- Title(参考訳): look before you leap: 人間の介入による安全なモデルベース強化学習
- Authors: Yunkun Xu, Zhenyu Liu, Guifang Duan, Jiangcheng Zhu, Xiaolong Bai,
Jianrong Tan
- Abstract要約: 安全モデルに基づく強化学習のための新しいフレームワークMBHIを提案する。
MBHIでは、人間のブロック決定を模倣するために教師付き学習者のアンサンブルが訓練されている。
本手法をいくつかの安全タスクで評価した結果,MBHIは基準値と比較して試料効率とカタストロフィ数において優れた性能を示した。
- 参考スコア(独自算出の注目度): 4.794701565647797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety has become one of the main challenges of applying deep reinforcement
learning to real world systems. Currently, the incorporation of external
knowledge such as human oversight is the only means to prevent the agent from
visiting the catastrophic state. In this paper, we propose MBHI, a novel
framework for safe model-based reinforcement learning, which ensures safety in
the state-level and can effectively avoid both "local" and "non-local"
catastrophes. An ensemble of supervised learners are trained in MBHI to imitate
human blocking decisions. Similar to human decision-making process, MBHI will
roll out an imagined trajectory in the dynamics model before executing actions
to the environment, and estimate its safety. When the imagination encounters a
catastrophe, MBHI will block the current action and use an efficient MPC method
to output a safety policy. We evaluate our method on several safety tasks, and
the results show that MBHI achieved better performance in terms of sample
efficiency and number of catastrophes compared to the baselines.
- Abstract(参考訳): 安全性は、現実世界のシステムに深層強化学習を適用する主な課題の1つになっている。
現在、人的監視などの外部知識の取り込みは、エージェントが破滅的な状態を訪れないようにするための唯一の手段である。
本稿では,安全モデルに基づく強化学習のための新しい枠組みであるmbhiを提案する。
MBHIでは、人間のブロック決定を模倣するために教師付き学習者のアンサンブルが訓練されている。
人間による意思決定のプロセスと同様に、MBHIは環境へのアクションを実行する前に、動的モデルに想像上の軌道をロールアウトし、その安全性を見積もる。
想像力が大惨事に遭遇すると、MBHIは現在の行動を阻止し、効率的なMPC法を用いて安全ポリシーを出力する。
本手法をいくつかの安全タスクで評価した結果,MBHIは基準値と比較して試料効率とカタストロフィ数において優れた性能を示した。
関連論文リスト
- DeepSafeMPC: Deep Learning-Based Model Predictive Control for Safe
Multi-Agent Reinforcement Learning [11.407941376728258]
安全なマルチエージェント強化学習(DeepSafeMPC)のためのDeep Learning-based Model Predictive Controlと呼ばれる新しい手法を提案する。
DeepSafeMPCの重要な洞察は、環境力学を正確に予測するために、エンタライズされたディープラーニングモデルを活用することである。
Safe Multi-agent MuJoCo 環境を用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-11T03:17:33Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe and Efficient Reinforcement Learning Using
Disturbance-Observer-Based Control Barrier Functions [5.571154223075409]
本稿では、外乱オブザーバ(DOB)と制御バリア機能(CBF)を用いた安全かつ効率的な強化学習(RL)手法を提案する。
本手法はモデル学習を伴わず,DOBを用いて不確実性のポイントワイド値を正確に推定し,安全行動を生成するための頑健なCBF条件に組み込む。
提案手法は,CBFとガウス過程に基づくモデル学習を用いて,最先端の安全なRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-11-30T18:49:53Z) - Safe Reinforcement Learning with Contrastive Risk Prediction [35.80144544954927]
本稿では,安全でない状態につながる状態-作用ペアの確率を予測するために,統計的コントラスト分類器を学習する安全RLのリスク防止訓練手法を提案する。
予測されたリスク確率に基づいて、リスク防止トラジェクトリを収集し、報酬関数をリスクペナルティで再形成して、安全なRLポリシーを導き出すことができる。
その結果,提案手法は最先端のモデルベース手法と同等の性能を示し,従来のモデルフリーなRL手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-10T18:54:38Z) - Safe Model-Based Reinforcement Learning Using Robust Control Barrier
Functions [43.713259595810854]
安全に対処する一般的なアプローチとして、安全層が追加され、RLアクションを安全な一連のアクションに投影する。
本稿では,モデルベースRLフレームワークにおけるロバスト制御バリア機能層としての安全性について述べる。
論文 参考訳(メタデータ) (2021-10-11T17:00:45Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。