論文の概要: Look Before You Leap: Safe Model-Based Reinforcement Learning with Human
Intervention
- arxiv url: http://arxiv.org/abs/2111.05819v1
- Date: Wed, 10 Nov 2021 17:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 15:05:59.143259
- Title: Look Before You Leap: Safe Model-Based Reinforcement Learning with Human
Intervention
- Title(参考訳): look before you leap: 人間の介入による安全なモデルベース強化学習
- Authors: Yunkun Xu, Zhenyu Liu, Guifang Duan, Jiangcheng Zhu, Xiaolong Bai,
Jianrong Tan
- Abstract要約: 安全モデルに基づく強化学習のための新しいフレームワークMBHIを提案する。
MBHIでは、人間のブロック決定を模倣するために教師付き学習者のアンサンブルが訓練されている。
本手法をいくつかの安全タスクで評価した結果,MBHIは基準値と比較して試料効率とカタストロフィ数において優れた性能を示した。
- 参考スコア(独自算出の注目度): 4.794701565647797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety has become one of the main challenges of applying deep reinforcement
learning to real world systems. Currently, the incorporation of external
knowledge such as human oversight is the only means to prevent the agent from
visiting the catastrophic state. In this paper, we propose MBHI, a novel
framework for safe model-based reinforcement learning, which ensures safety in
the state-level and can effectively avoid both "local" and "non-local"
catastrophes. An ensemble of supervised learners are trained in MBHI to imitate
human blocking decisions. Similar to human decision-making process, MBHI will
roll out an imagined trajectory in the dynamics model before executing actions
to the environment, and estimate its safety. When the imagination encounters a
catastrophe, MBHI will block the current action and use an efficient MPC method
to output a safety policy. We evaluate our method on several safety tasks, and
the results show that MBHI achieved better performance in terms of sample
efficiency and number of catastrophes compared to the baselines.
- Abstract(参考訳): 安全性は、現実世界のシステムに深層強化学習を適用する主な課題の1つになっている。
現在、人的監視などの外部知識の取り込みは、エージェントが破滅的な状態を訪れないようにするための唯一の手段である。
本稿では,安全モデルに基づく強化学習のための新しい枠組みであるmbhiを提案する。
MBHIでは、人間のブロック決定を模倣するために教師付き学習者のアンサンブルが訓練されている。
人間による意思決定のプロセスと同様に、MBHIは環境へのアクションを実行する前に、動的モデルに想像上の軌道をロールアウトし、その安全性を見積もる。
想像力が大惨事に遭遇すると、MBHIは現在の行動を阻止し、効率的なMPC法を用いて安全ポリシーを出力する。
本手法をいくつかの安全タスクで評価した結果,MBHIは基準値と比較して試料効率とカタストロフィ数において優れた性能を示した。
関連論文リスト
- Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints [0.0]
マルチエージェント強化学習パラダイムに拡散モデルを統合する革新的なフレームワークを導入する。
このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
論文 参考訳(メタデータ) (2024-06-30T16:05:31Z) - Safe Exploration Using Bayesian World Models and Log-Barrier Optimization [40.77789028220837]
CERLは、学習中にポリシーを安全に保ちながら、制約付きマルコフ決定プロセスを解決するための新しい方法である。
CERLは、画像観測からCMDPを解く際の安全性と最適性の観点から、現在の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-09T16:42:39Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Reinforcement Learning with Contrastive Risk Prediction [35.80144544954927]
本稿では,安全でない状態につながる状態-作用ペアの確率を予測するために,統計的コントラスト分類器を学習する安全RLのリスク防止訓練手法を提案する。
予測されたリスク確率に基づいて、リスク防止トラジェクトリを収集し、報酬関数をリスクペナルティで再形成して、安全なRLポリシーを導き出すことができる。
その結果,提案手法は最先端のモデルベース手法と同等の性能を示し,従来のモデルフリーなRL手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-10T18:54:38Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。