論文の概要: Scenario Generation for Risk-Aware Reinforcement Learning with Probably Approximately Safe Guarantees
- arxiv url: http://arxiv.org/abs/2606.04812v1
- Date: Wed, 03 Jun 2026 12:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.75144
- Title: Scenario Generation for Risk-Aware Reinforcement Learning with Probably Approximately Safe Guarantees
- Title(参考訳): ほぼ安全な保証者によるリスク対応強化学習のためのシナリオ生成
- Authors: Mohit Prashant, Arvind Easwaran,
- Abstract要約: 強化学習 (Reinforcement Learning, RL) ポリシーは、未知または安全でない振る舞いをもたらす過渡摂動への感受性を示す。
政策検証の方法は、安全制約に対する政策軌跡をサンプリングすることによって確率的障壁証明を構築することである。
可変オートエンコーダ (VAE) を用いて, 遭遇した状態空間の分布を近似し, 上界と下界のバリア・サーティフィケートを構成する。
- 参考スコア(独自算出の注目度): 3.959033903731638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guaranteeing safety is critical to the deployment of reinforcement learning (RL) agents in the real-world, especially as policies learned using deep RL may demonstrate susceptibility to transition perturbations that result in unknown or unsafe behaviour. A method of policy verification is to construct probabilistic barrier-certificates by sampling policy trajectories with respect to safety constraints, thereby demarcating known safe behaviour from unknown behaviour. Obtaining tight upper and lower bounds on the probability of violation of these constraints may be difficult if the policy is susceptible to transition uncertainty or perturbation that places the agent in insufficiently explored states. To address this, we approximate the distribution of the encountered state-space using a variational autoencoder (VAE) and construct upper and lower-bound barrier-certificates using latent characteristics of states to optimize for regions of known, safe behaviour with high confidence. We frame this in our work as a dual optimization problem where the lower-bound barrier-certificate presents a more conservative estimate of the safe region than the upper-bound barrier-certificate. Sampling states that lie within the set difference of the two during training, i.e. the non-robust region, allows us to tighten the upper and lower bounds to provide sharper probabilistic guarantees on safety. Within our study, we describe the guarantees placed and demonstrate the tightness of our bounds experimentally.
- Abstract(参考訳): 安全性の確保は現実世界における強化学習(RL)エージェントの展開に不可欠であり、特に深いRLを用いて学習したポリシーは、未知または不安全な振る舞いをもたらす過渡的摂動への感受性を示す。
政策検証の方法は、安全制約に関する政策トラジェクトリをサンプリングすることにより、確率的バリア認証を構築することで、未知の行動から既知の安全行動を切り離すことである。
これらの制約に違反する可能性について、厳しい上と下の境界を持つことは、エージェントを不十分に探索された状態に配置する移行の不確実性や摂動の影響を受けやすい場合、困難である。
これを解決するために, 可変オートエンコーダ(VAE)を用いて, 遭遇した状態空間の分布を近似し, 状態の潜時特性を用いて上および下界バリア特性を構築し, 信頼性の高い安全行動領域を最適化する。
我々はこれを、上界バリア認証よりも安全な領域のより保守的な推定を下界バリア認証が提示する双対最適化問題として検討する。
サンプリング状態は、トレーニング中に2つの設定された違い、すなわち非ロバスト領域内にあるので、上と下の境界を締め付け、安全性をより高い確率論的保証を提供することができます。
本研究では,提案する保証について述べるとともに,その厳密さを実験的に示す。
関連論文リスト
- Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Distributionally Safe Reinforcement Learning under Model Uncertainty: A
Single-Level Approach by Differentiable Convex Programming [4.825619788907192]
We present a tractable distributionally safe reinforcement learning framework to enforce safety under a distributional shift by a Wasserstein metric。
トラクタビリティを向上させるために、まず双対性理論を用いて、低次最適化を無限次元確率空間から有限次元パラメトリック空間に変換する。
微分可能凸プログラミングにより、二段階安全な学習問題は、さらに2つの逐次計算効率のモジュールを持つ1つのレベルに削減される。
論文 参考訳(メタデータ) (2023-10-03T22:05:05Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Trust Region-Based Safe Distributional Reinforcement Learning for
Multiple Constraints [18.064813206191754]
安全分布型アクタークリティカル(SDAC)と呼ばれる複数の制約に対する信頼領域に基づく安全強化学習アルゴリズムを提案する。
主な貢献は次のとおりである: 1) 多制約問題における不実現可能性問題を管理するための勾配積分法を導入し、理論収束を確実にし、2)低バイアスでリスク-逆制約を推定するTD($lambda$)ターゲット分布を開発する。
論文 参考訳(メタデータ) (2023-01-26T04:05:40Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Feasible Actor-Critic: Constrained Reinforcement Learning for Ensuring
Statewise Safety [1.9573380763700712]
本稿では,モデルレス制約付き安全な強化学習法であるFACアルゴリズムを提案する。
我々は、どの政策を選択しても本質的に安全ではないと主張する州もあるが、他の州には安全を保証する政策があり、そのような州や政策は実現可能であると我々は主張する。
我々は,FACが制約満足度と報酬最適化の両方の観点から,従来の予測に基づく制約付きRL法より優れていることを理論的に保証する。
論文 参考訳(メタデータ) (2021-05-22T10:40:58Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。