論文の概要: Provably Optimal Reinforcement Learning under Safety Filtering
- arxiv url: http://arxiv.org/abs/2510.18082v1
- Date: Mon, 20 Oct 2025 20:20:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.556405
- Title: Provably Optimal Reinforcement Learning under Safety Filtering
- Title(参考訳): 安全フィルタリングにおける多分最適強化学習
- Authors: Donggeon David Oh, Duy P. Nguyen, Haimin Hu, Jaime F. Fisac,
- Abstract要約: パーミッシブセーフティフィルタによる安全性の強制は、固有の性能を低下させるものではないことを示す。
安全決定プロセス (SC-MDP) により安全を形式化し, 破滅的故障状態を回避するためには, 高い確率ではなくカテゴリー的判断が必要である。
我々の主定理は、 (i) フィルタリングされた MDP における学習は安全な分類であり、 (ii) 標準 RL 収束は、フィルタされた MDP に受け継がれ、 (iii) フィルタされた MDP で最適となる政策は、いずれの政策も決定する。
- 参考スコア(独自算出の注目度): 6.197103843323546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reinforcement learning (RL) enable its use on increasingly complex tasks, but the lack of formal safety guarantees still limits its application in safety-critical settings. A common practical approach is to augment the RL policy with a safety filter that overrides unsafe actions to prevent failures during both training and deployment. However, safety filtering is often perceived as sacrificing performance and hindering the learning process. We show that this perceived safety-performance tradeoff is not inherent and prove, for the first time, that enforcing safety with a sufficiently permissive safety filter does not degrade asymptotic performance. We formalize RL safety with a safety-critical Markov decision process (SC-MDP), which requires categorical, rather than high-probability, avoidance of catastrophic failure states. Additionally, we define an associated filtered MDP in which all actions result in safe effects, thanks to a safety filter that is considered to be a part of the environment. Our main theorem establishes that (i) learning in the filtered MDP is safe categorically, (ii) standard RL convergence carries over to the filtered MDP, and (iii) any policy that is optimal in the filtered MDP-when executed through the same filter-achieves the same asymptotic return as the best safe policy in the SC-MDP, yielding a complete separation between safety enforcement and performance optimization. We validate the theory on Safety Gymnasium with representative tasks and constraints, observing zero violations during training and final performance matching or exceeding unfiltered baselines. Together, these results shed light on a long-standing question in safety-filtered learning and provide a simple, principled recipe for safe RL: train and deploy RL policies with the most permissive safety filter that is available.
- Abstract(参考訳): 近年の強化学習(RL)の進歩により、ますます複雑なタスクに利用できるようになるが、公式な安全保証の欠如により、安全クリティカルな設定での応用が制限されている。
一般的な実践的なアプローチは、トレーニングとデプロイメントの両方で障害を防止するために安全でないアクションをオーバーライドするセーフティフィルタでRLポリシーを強化することである。
しかし、安全フィルタリングは性能を犠牲にし、学習プロセスを妨げていると見なされることが多い。
このような安全性能のトレードオフは本質的ではなく, 十分に許容された安全フィルタによる安全性が漸近的性能を低下させるものではないことを初めて証明した。
安全クリティカルなマルコフ決定プロセス (SC-MDP) を用いてRLの安全性を定式化する。
さらに、環境の一部と考えられる安全フィルタのおかげで、全てのアクションが安全な効果をもたらすような、関連するフィルタ付きMDPを定義します。
我々の主定理はそれを証明している
i)フィルタMDPでの学習はカテゴリー的に安全である。
(ii)標準RL収束はフィルタされたMDPに受け継がれ、
三 同じフィルタを通したMDP-Whenにおいて最適なポリシは、SC-MDPの最高安全ポリシーと同じ漸近的リターンを示し、安全執行と性能最適化の完全な分離をもたらす。
代表的な課題と制約を伴って安全体育館の理論を検証し,トレーニング中にゼロ違反を観察し,最終的な性能整合性や未フィルタリングベースラインを超えることを確認した。
これらの結果は、安全フィルタ学習における長年の疑問に光を当て、安全RLのためのシンプルで原則化されたレシピを提供する: 最も許容される安全フィルタでRLポリシーを訓練し、デプロイする。
関連論文リスト
- A Provable Approach for End-to-End Safe Reinforcement Learning [17.17447653795906]
安全強化学習(RL)の長年の目標は、プロセス全体を通してポリシーの安全性を確保することである。
本稿では、オフライン安全なRLと安全なポリシー展開を統合するPLS(Provably Lifetime Safe RL)手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T00:48:20Z) - Safety Modulation: Enhancing Safety in Reinforcement Learning through Cost-Modulated Rewards [23.15178050525514]
セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、RLエージェントをトレーニングして、安全性の制約を守りながら、実環境におけるパフォーマンスを最大化することを目的としている。
本稿では,安全なポリシ関数学習を可能にする,SMPO(Safety Modulated Policy Optimization)と呼ばれる新しい安全なRL手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T21:35:22Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Safety Filtering While Training: Improving the Performance and Sample Efficiency of Reinforcement Learning Agents [7.55113002732746]
強化学習(RL)コントローラは柔軟で性能が高いが、安全性を保証することは滅多にない。
安全フィルタは、柔軟性を維持しながら、RLコントローラにハードセーフの保証を与える。
我々は、評価中にのみ適用するのではなく、トレーニング用RLコントローラに安全フィルタを組み込むためのいくつかの変更を分析した。
論文 参考訳(メタデータ) (2024-10-15T15:01:57Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Safety Optimized Reinforcement Learning via Multi-Objective Policy
Optimization [3.425378723819911]
セーフ強化学習(Safe reinforcement learning, Safe RL)とは、RLアルゴリズムが制約を犯すのを防ぐ技術である。
本稿では,多目的ポリシー最適化フレームワークに基づく新しいモデルフリーなSafe RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:58:38Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。