論文の概要: From Cumulative Constraints to Adaptive Runtime Safety Control for Nonstationary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.18841v1
- Date: Wed, 13 May 2026 03:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.658899
- Title: From Cumulative Constraints to Adaptive Runtime Safety Control for Nonstationary Reinforcement Learning
- Title(参考訳): 非定常強化学習における累積制約から適応型実行時安全制御へ
- Authors: Timofey Tomashevskiy,
- Abstract要約: Constraint Projection Safety Shield (CPSS)は、累積安全予算を実行中に適応的な状態レベルの制御制約に変換するランタイムメカニズムである。
CPSSは残りの安全予算を追跡し、それを許容されるリスクしきい値に予測し、予測される安全コストがアクティブなしきい値を超える政策措置をフィルタリングする。
得られた遮蔽ポリシーを解析し、そのメカニズムが実行された動作に対する状態ごとの閾値満足度を保証することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety in reinforcement learning is often specified through cumulative cost constraints, but these trajectory-level guarantees do not directly prevent unsafe individual decisions, especially under nonstationarity. In continual and nonstationary settings, the difficulty is amplified because the risk associated with the same action can vary across contexts, while a fixed state-level threshold may be either too conservative or too weak. We propose Constraint Projection Safety Shield (CPSS), a runtime mechanism that converts a cumulative safety budget into adaptive state-level control constraints during execution. CPSS tracks the remaining safety budget, projects it into a time-varying admissible risk threshold, and filters policy actions whose predicted safety cost exceeds the active threshold. The threshold is adjusted online using contextual signals so that enforcement becomes stricter in more demanding or rapidly changing regimes and less restrictive when the available safety budget is sufficient. We analyze the resulting shielded policy and show that the mechanism guarantees per-state threshold satisfaction for executed actions, induces finite-horizon cumulative cost bounds, and yields a performance degradation bound in terms of intervention frequency and per-step reward distortion. We evaluate CPSS in nonstationary highway merging scenarios using highway-env. Across multiple seeds, CPSS substantially reduces proximity-based safety violations and increases separation margins while intervening selectively rather than dominating the learned policy. These results support adaptive budget-to-threshold projection as a practical way to transform cumulative safety specifications into effective local safety control for continual reinforcement learning systems.
- Abstract(参考訳): 強化学習の安全性はしばしば累積的なコスト制約によって特定されるが、これらの軌道レベルの保証は、特に非定常性の下では、安全でない個人の決定を直接妨げない。
連続的および非定常的な設定では、同じアクションに関連するリスクがコンテキストによって異なるため、困難が増幅される。
本研究では,累積安全予算を適応的状態レベル制御制約に変換するランタイム機構であるConstraint Projection Safety Shield (CPSS)を提案する。
CPSSは残りの安全予算を追跡し、それを許容されるリスクしきい値に予測し、予測される安全コストがアクティブなしきい値を超える政策措置をフィルタリングする。
安全予算が十分であれば、より要求されたり、急速に変化する体制において、執行が厳格になるように、しきい値が文脈信号を使用してオンラインで調整される。
得られた遮蔽ポリシーを分析し,そのメカニズムが実行動作に対する状態ごとの閾値満足度を保証し,有限水平累積コスト境界を誘導し,介入周波数とステップ毎の報酬歪みの観点から性能劣化を生じさせることを示す。
非定常ハイウェイマージシナリオにおけるCPSSの評価をハイウェイ-envを用いて行う。
複数の種にまたがって、CPSSは近接ベースの安全違反を著しく低減し、学習方針を支配せず選択的に介入しながら分離マージンを増大させる。
これらの結果は,累積安全仕様を連続的強化学習システムのための効果的な局所的安全制御に変換するための実践的な方法として,適応的予算間投射を支援する。
関連論文リスト
- Action-Conditioned Risk Gating for Safety-Critical Control under Partial Observability [79.08785366532287]
部分観測可能性下でのリスク感応制御のための軽量なリスクゲート強化学習近似を提案する。
安全クリティカルな部分観測可能な2つの領域 – 自動グルコース調節と安全制約ナビゲーション – でアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-14T01:23:09Z) - Safe Continual Reinforcement Learning under Nonstationarity via Adaptive Safety Constraints [0.0]
LILAC+は、非定常下での安全な継続的強化学習のためのフレームワークである。
これは、コンテキストベースの安全制約、適応速度制約、州間安全執行の3つの適応安全メカニズムを組み合わせたものである。
静止状態,非定常状態,非定常状態のシミュレーション運転環境におけるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-05-13T04:10:10Z) - Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment [49.2305683068875]
本稿では,リスク認識を政策最適化プロセスに組み込んだ新しいアライメント手法であるリスク対応ステップワイドアライメント(RSA)を提案する。
RSAは、過剰なモデルシフトによって引き起こされるリスクを基準方針から緩和し、低確率で高影響の有害な振る舞いを明示的に抑制する。
実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成できることが確認された。
論文 参考訳(メタデータ) (2025-12-30T14:38:02Z) - Constrained Policy Optimization via Sampling-Based Weight-Space Projection [3.736063711613611]
安全クリティカルな学習は、安全な運用体制を離れることなく、パフォーマンスを向上させる政策を必要とする。
モデルパラメータが未知のロールアウトに基づく安全制約を満たすような制約付きポリシー学習について検討する。
制約関数への勾配アクセスを必要とせずにパラメータ空間内で直接安全を強制する,サンプリングベースの重み空間投影法であるSCPOを提案する。
論文 参考訳(メタデータ) (2025-12-15T19:00:01Z) - Constraint-Aware Reinforcement Learning via Adaptive Action Scaling [6.6638441348404855]
本稿では,予測制約違反に基づいてエージェントの行動をスケールするモジュール型コスト認識レギュレータを提案する。
規制当局は、行動の抑制を回避しつつ、制約違反を最小限に抑えるよう訓練されている。
提案手法は, SAC や TD3 などの非政治的 RL 手法とシームレスに連携し, 安全ガイムの移動作業における最先端のリターン・ツー・コスト比を実現する。
論文 参考訳(メタデータ) (2025-10-13T14:59:28Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。