論文の概要: Safe Exploration in Reinforcement Learning: A Generalized Formulation
and Algorithms
- arxiv url: http://arxiv.org/abs/2310.03225v1
- Date: Thu, 5 Oct 2023 00:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:48:53.856422
- Title: Safe Exploration in Reinforcement Learning: A Generalized Formulation
and Algorithms
- Title(参考訳): 強化学習における安全な探索--一般化された定式化とアルゴリズム
- Authors: Akifumi Wachi, Wataru Hashimoto, Xun Shen, Kazumune Hashimoto
- Abstract要約: 本稿では,安全な探査のためのメタアルゴリズムであるMASEの形で,安全な探査(GSE)問題の解を提案する。
提案アルゴリズムは,グリッドワールドおよびセーフティガイムベンチマークにおける最先端アルゴリズムよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 8.789204441461678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe exploration is essential for the practical use of reinforcement learning
(RL) in many real-world scenarios. In this paper, we present a generalized safe
exploration (GSE) problem as a unified formulation of common safe exploration
problems. We then propose a solution of the GSE problem in the form of a
meta-algorithm for safe exploration, MASE, which combines an unconstrained RL
algorithm with an uncertainty quantifier to guarantee safety in the current
episode while properly penalizing unsafe explorations before actual safety
violation to discourage them in future episodes. The advantage of MASE is that
we can optimize a policy while guaranteeing with a high probability that no
safety constraint will be violated under proper assumptions. Specifically, we
present two variants of MASE with different constructions of the uncertainty
quantifier: one based on generalized linear models with theoretical guarantees
of safety and near-optimality, and another that combines a Gaussian process to
ensure safety with a deep RL algorithm to maximize the reward. Finally, we
demonstrate that our proposed algorithm achieves better performance than
state-of-the-art algorithms on grid-world and Safety Gym benchmarks without
violating any safety constraints, even during training.
- Abstract(参考訳): 多くの実世界のシナリオで強化学習(RL)を実践するためには,安全な探索が不可欠である。
本稿では,共通安全探査問題の統一的な定式化として,gse(generalized safe exploration)問題を提案する。
そこで本研究では,安全探査のためのメタアルゴリズムであるmaseの形でgse問題の解法を提案する。このmaseは,制約のないrlアルゴリズムと不確実性定量化器を組み合わせることで,本エピソードにおける安全性を保証し,実際の安全性に違反する前に安全でない探索を適切に罰し,今後のエピソードではそれを妨げている。
MASEの利点は、適切な前提の下で安全制約を犯さないことを高い確率で保証しながら、ポリシーを最適化できるということです。
具体的には,不確かさ量化器の構成が異なるmaseの2つの変種を提示する。1つは安全性と近似最適性を理論的に保証した一般化線形モデルに基づくもので,もう1つはガウス過程を組み合わせることで安全性を最大化するための深いrlアルゴリズムと組み合わせたものである。
最後に,提案アルゴリズムは,トレーニング中であっても安全制約に違反することなく,グリッドワールドおよびセーフティガイムベンチマークの最先端アルゴリズムよりも優れた性能を実現することを示す。
関連論文リスト
- On Safety in Safe Bayesian Optimization [5.9045432488022485]
本稿では,一般的なSafeOpt型アルゴリズムの安全性に関する3つの問題について検討する。
まず、これらのアルゴリズムはガウス過程(GP)回帰に対する頻繁な境界の不確実性に批判的に依存する。
第二に、ターゲット関数の再生カーネルヒルベルト空間(RKHS)ノルム上の上限を仮定する。
第3に、SafeOptと派生アルゴリズムは離散的な検索空間に依存しており、高次元問題に適用することは困難である。
論文 参考訳(メタデータ) (2024-03-19T17:50:32Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Safe Policy Optimization with Local Generalized Linear Function
Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。
本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。
提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T00:47:50Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Safe Reinforcement Learning in Constrained Markov Decision Processes [20.175139766171277]
本稿では,マルコフ決定過程を未知の安全制約下で探索・最適化するアルゴリズムSNO-MDPを提案する。
我々は、安全制約の満足度と累積報酬のほぼ最適性の両方を理論的に保証する。
論文 参考訳(メタデータ) (2020-08-15T02:20:23Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Verifiably Safe Exploration for End-to-End Reinforcement Learning [17.401496872603943]
本稿では,視覚的入力によるエンドツーエンドポリシーの形式的安全性制約の実施に向けた最初のアプローチを提案する。
厳密な制約の存在下で安全に探索することの難しさを強調する新しいベンチマークで評価されている。
論文 参考訳(メタデータ) (2020-07-02T16:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。