論文の概要: Runtime Safety through Adaptive Shielding: From Hidden Parameter Inference to Provable Guarantees
- arxiv url: http://arxiv.org/abs/2506.11033v1
- Date: Tue, 20 May 2025 23:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.496488
- Title: Runtime Safety through Adaptive Shielding: From Hidden Parameter Inference to Provable Guarantees
- Title(参考訳): 適応シールドによる実行時の安全性:隠れパラメータ推論から予測保証まで
- Authors: Minjae Kwon, Tyler Ingebrand, Ufuk Topcu, Lu Feng,
- Abstract要約: ロボットの質量分布や摩擦などの隠されたパラメータの変化は、実行中に安全リスクを引き起こす。
我々は強化学習のための実行時遮蔽機構を開発する。
提案手法が確率論的安全保証を満たすことを証明し,最適方針を導出する。
- 参考スコア(独自算出の注目度): 17.670635109868854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variations in hidden parameters, such as a robot's mass distribution or friction, pose safety risks during execution. We develop a runtime shielding mechanism for reinforcement learning, building on the formalism of constrained hidden-parameter Markov decision processes. Function encoders enable real-time inference of hidden parameters from observations, allowing the shield and the underlying policy to adapt online. The shield constrains the action space by forecasting future safety risks (such as obstacle proximity) and accounts for uncertainty via conformal prediction. We prove that the proposed mechanism satisfies probabilistic safety guarantees and yields optimal policies among the set of safety-compliant policies. Experiments across diverse environments with varying hidden parameters show that our method significantly reduces safety violations and achieves strong out-of-distribution generalization, while incurring minimal runtime overhead.
- Abstract(参考訳): ロボットの質量分布や摩擦などの隠されたパラメータの変化は、実行中に安全リスクを引き起こす。
我々は,制約付き隠れパラメータ決定過程の定式化に基づいて,強化学習のための実行時遮蔽機構を開発する。
関数エンコーダは、観測から隠れたパラメータをリアルタイムに推測することを可能にする。
シールドは将来の安全リスク(障害物近接など)を予測して行動空間を制約し、整合予測を通じて不確実性を説明する。
提案手法は, 確率論的安全保証を満足し, 安全に適合した政策の集合の中で最適な政策を導出することを示す。
種々のパラメータを隠蔽した各種環境における実験により,本手法は安全性の侵害を著しく低減し,かつ,最小限のランタイムオーバーヘッドを発生させながら,配布外一般化を強く達成することを示した。
関連論文リスト
- Distributed Risk-Sensitive Safety Filters for Uncertain Discrete-Time Systems [39.53920064972246]
本研究では,不確実なダイナミクスを持つ離散時間マルチエージェントシステムに対して,新たなリスク感応性安全フィルタを提案する。
提案手法は, モデル不確実性に対するロバスト性を確保するために, 指数的リスク演算子に基づく集中型安全条件に依存する。
論文 参考訳(メタデータ) (2025-06-09T01:48:25Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Realizable Continuous-Space Shields for Safe Reinforcement Learning [13.728961635717134]
本研究では、連続状態および行動空間における安全要件の満足度を確保するために特別に設計された最初の遮蔽手法を提案する。
我々の手法は実現可能性の上に構築されており、シールドが環境中のあらゆる状態に対して常に安全なアクションを発生させることができることを確認する重要な特性である。
論文 参考訳(メタデータ) (2024-10-02T21:08:11Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - SafeDiffuser: Safe Planning with Diffusion Probabilistic Models [97.80042457099718]
拡散モデルに基づくアプローチは、データ駆動計画において有望であるが、安全保証はない。
我々は,拡散確率モデルが仕様を満たすことを保証するために,SafeDiffuserと呼ばれる新しい手法を提案する。
提案手法は,迷路経路の生成,足歩行ロボットの移動,空間操作など,安全な計画作業の一連のテストを行う。
論文 参考訳(メタデータ) (2023-05-31T19:38:12Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - ProBF: Learning Probabilistic Safety Certificates with Barrier Functions [31.203344483485843]
制御バリア関数は、地平系力学にアクセスできれば安全を保証できる便利なツールである。
実際には、システムダイナミクスに関する不正確な知識があるため、安全でない振る舞いにつながる可能性があります。
本手法の有効性をSegwayとQuadrotorのシミュレーション実験により示す。
論文 参考訳(メタデータ) (2021-12-22T20:18:18Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。