論文の概要: TRC: Trust Region Conditional Value at Risk for Safe Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2312.00344v1
- Date: Fri, 1 Dec 2023 04:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:39:58.747632
- Title: TRC: Trust Region Conditional Value at Risk for Safe Reinforcement
Learning
- Title(参考訳): trc: 安全強化学習のリスクを考慮した信頼領域条件値
- Authors: Dohyeong Kim and Songhwai Oh
- Abstract要約: TRCと呼ばれるCVaR制約を持つ信頼領域ベースの安全なRL法を提案する。
まずCVaR上の上界を導出し、その後、信頼領域における微分可能な形で上界を近似する。
他の安全なRL法と比較して、全ての実験で制約を満たす一方、性能は1.93倍向上する。
- 参考スコア(独自算出の注目度): 16.176812250762666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As safety is of paramount importance in robotics, reinforcement learning that
reflects safety, called safe RL, has been studied extensively. In safe RL, we
aim to find a policy which maximizes the desired return while satisfying the
defined safety constraints. There are various types of constraints, among which
constraints on conditional value at risk (CVaR) effectively lower the
probability of failures caused by high costs since CVaR is a conditional
expectation obtained above a certain percentile. In this paper, we propose a
trust region-based safe RL method with CVaR constraints, called TRC. We first
derive the upper bound on CVaR and then approximate the upper bound in a
differentiable form in a trust region. Using this approximation, a subproblem
to get policy gradients is formulated, and policies are trained by iteratively
solving the subproblem. TRC is evaluated through safe navigation tasks in
simulations with various robots and a sim-to-real environment with a Jackal
robot from Clearpath. Compared to other safe RL methods, the performance is
improved by 1.93 times while the constraints are satisfied in all experiments.
- Abstract(参考訳): 安全はロボット工学において最重要であり、安全RLと呼ばれる安全を反映した強化学習が広く研究されている。
安全RLでは,規定された安全制約を満たしつつ,所望のリターンを最大化する政策を見出すことを目指している。
CVaRは一定のパーセンタイル以上の条件付き期待値であるため、リスクの条件値(CVaR)に対する制約は、高コストによる失敗の確率を効果的に低下させる。
本稿では,CVaR制約付き信頼領域ベースの安全RL手法であるTRCを提案する。
まずCVaR上の上界を導出し、その後、信頼領域における微分可能な形で上界を近似する。
この近似を用いて、ポリシー勾配を得るためのサブプロブレムを定式化し、サブプロブレムを反復的に解いてポリシーを訓練する。
TRCは、各種ロボットによるシミュレーションにおける安全なナビゲーションタスクと、ClearpathのJackalロボットによるシミュレーションにより評価される。
他の安全なRL法と比較して、全ての実験で制約を満たす一方、性能は1.93倍向上する。
関連論文リスト
- Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Efficient Off-Policy Safe Reinforcement Learning Using Trust Region
Conditional Value at Risk [16.176812250762666]
TRCと呼ばれるオンライン安全なRL法は、信頼領域法を用いてCVaR制約されたRL問題を扱う。
複雑な環境下での優れた性能を実現し、安全制約を迅速に満たすためには、RL法を効率的にサンプリングする必要がある。
本稿では,分散シフトの効果を低減できる新しいサロゲート関数を提案するとともに,リプレイバッファから遠く離れないようにするためのアダプティブな信頼領域制約を導入する。
論文 参考訳(メタデータ) (2023-12-01T04:29:19Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Safe Distributional Reinforcement Learning [19.607668635077495]
強化学習における安全性(RL)は、自動運転や金融などの多くの分野での訓練と実行の両方において重要な特性です。
分布 RL の設定において制約付き RL の定式化で定式化する。
私たちは、人工および現実ドメインに関する提案を、最新の安全RLアルゴリズムに対して実証的に検証します。
論文 参考訳(メタデータ) (2021-02-26T13:03:27Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。