論文の概要: Enhancing Safe Exploration Using Safety State Augmentation
- arxiv url: http://arxiv.org/abs/2206.02675v1
- Date: Mon, 6 Jun 2022 15:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 13:57:35.722064
- Title: Enhancing Safe Exploration Using Safety State Augmentation
- Title(参考訳): 安全状態強化による安全探査の促進
- Authors: Aivar Sootla, Alexander I. Cowen-Rivers, Jun Wang, Haitham Bou Ammar
- Abstract要約: モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
- 参考スコア(独自算出の注目度): 71.00929878212382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe exploration is a challenging and important problem in model-free
reinforcement learning (RL). Often the safety cost is sparse and unknown, which
unavoidably leads to constraint violations -- a phenomenon ideally to be
avoided in safety-critical applications. We tackle this problem by augmenting
the state-space with a safety state, which is nonnegative if and only if the
constraint is satisfied. The value of this state also serves as a distance
toward constraint violation, while its initial value indicates the available
safety budget. This idea allows us to derive policies for scheduling the safety
budget during training. We call our approach Simmer (Safe policy IMproveMEnt
for RL) to reflect the careful nature of these schedules. We apply this idea to
two safe RL problems: RL with constraints imposed on an average cost, and RL
with constraints imposed on a cost with probability one. Our experiments
suggest that simmering a safe algorithm can improve safety during training for
both settings. We further show that Simmer can stabilize training and improve
the performance of safe RL with average constraints.
- Abstract(参考訳): 安全探索はモデルフリー強化学習(RL)において困難かつ重要な問題である。
多くの場合、安全コストは希少で不明であり、それは必然的に制約違反につながる -- 安全クリティカルなアプリケーションでは避けられるのが理想的だ。
我々は、制約が満たされた場合に限り、非負である安全状態で状態空間を増強することでこの問題に取り組む。
この状態の値は制約違反への距離としても機能し、初期値は利用可能な安全予算を示している。
このアイデアは、トレーニング中に安全予算をスケジューリングするためのポリシーを導出することを可能にする。
我々は、これらのスケジュールの注意深い性質を反映するため、Simmer (Safe Policy IMproveMEnt for RL) と呼ぶ。
このアイデアは、平均的なコストに制約を課したRLと、確率1のコストに制約を課したRLの2つの安全なRL問題に適用する。
実験の結果,安全なアルゴリズムを浸漬することで,両設定のトレーニング時の安全性が向上することが示唆された。
さらに、Simmerはトレーニングを安定させ、平均的な制約で安全なRLの性能を向上させることができることを示す。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。