論文の概要: Safe But Not Sorry: Reducing Over-Conservatism in Safety Critics via Uncertainty-Aware Modulation
- arxiv url: http://arxiv.org/abs/2510.18478v1
- Date: Tue, 21 Oct 2025 09:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.418265
- Title: Safe But Not Sorry: Reducing Over-Conservatism in Safety Critics via Uncertainty-Aware Modulation
- Title(参考訳): 安全だが安全ではない:不確実性意識による安全批判の過保守性軽減
- Authors: Daniel Bethell, Simos Gerasimou, Radu Calinescu, Calum Imrie,
- Abstract要約: Uncertain Safety Critic (USC) は、不確実性を認識した修正と改善を批判訓練に統合する新しいアプローチである。
USCは、競争力やより高い報酬を維持しながら、安全違反を約40%削減する。
また、予測されるコスト勾配と真のコスト勾配の誤差を約83%削減し、安全性とパフォーマンスのトレードオフを突破する。
- 参考スコア(独自算出の注目度): 6.255435016547602
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ensuring the safe exploration of reinforcement learning (RL) agents is critical for deployment in real-world systems. Yet existing approaches struggle to strike the right balance: methods that tightly enforce safety often cripple task performance, while those that prioritize reward leave safety constraints frequently violated, producing diffuse cost landscapes that flatten gradients and stall policy improvement. We introduce the Uncertain Safety Critic (USC), a novel approach that integrates uncertainty-aware modulation and refinement into critic training. By concentrating conservatism in uncertain and costly regions while preserving sharp gradients in safe areas, USC enables policies to achieve effective reward-safety trade-offs. Extensive experiments show that USC reduces safety violations by approximately 40% while maintaining competitive or higher rewards, and reduces the error between predicted and true cost gradients by approximately 83%, breaking the prevailing trade-off between safety and performance and paving the way for scalable safe RL.
- Abstract(参考訳): 強化学習(RL)エージェントの安全な探索は、現実世界のシステムへの展開に不可欠である。
安全を厳しく強制する手法は、しばしばタスクのパフォーマンスを損なうが、報酬を優先する手法は、安全性の制約を頻繁に違反する。
我々は,不確実性意識の調整と改善を批判訓練に統合する新しいアプローチである,不確実性安全批判(USC)を紹介した。
安全な地域で急勾配を維持しつつ、不確実でコストのかかる地域で保守主義を集中させることにより、USCは効果的な報酬-安全トレードオフを達成するための政策を可能にしている。
大規模な実験により、USCは競争力や高い報酬を維持しながら安全違反を約40%減らし、予測されるコスト勾配と真のコスト勾配の誤差を約83%減らし、安全とパフォーマンスのトレードオフを破り、スケーラブルな安全なRLの道を開いた。
関連論文リスト
- Safety Modulation: Enhancing Safety in Reinforcement Learning through Cost-Modulated Rewards [23.15178050525514]
セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、RLエージェントをトレーニングして、安全性の制約を守りながら、実環境におけるパフォーマンスを最大化することを目的としている。
本稿では,安全なポリシ関数学習を可能にする,SMPO(Safety Modulated Policy Optimization)と呼ばれる新しい安全なRL手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T21:35:22Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。