論文の概要: Robust Probabilistic Shielding for Safe Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.10293v1
- Date: Mon, 11 May 2026 09:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.712033
- Title: Robust Probabilistic Shielding for Safe Offline Reinforcement Learning
- Title(参考訳): 安全オフライン強化学習のためのロバスト確率シールド
- Authors: Maris F. L. Galesloot, Thomas Rhemrev, Nils Jansen,
- Abstract要約: オフラインの強化学習では、環境相互作用のない固定データセットからポリシーを学習する。
安全なポリシー改善(SPI)と呼ばれる技術は、パフォーマンスを保証する: 高い確率で、新しいポリシーは与えられた基本方針よりも優れ、安全であると仮定される。
シールドをオフラインのRLに拡張し、利用可能なデータセットと安全でない状態の知識にのみ依存することで、これらのパラダイムを統合する。
- 参考スコア(独自算出の注目度): 12.352902259774345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline reinforcement learning (RL), we learn policies from fixed datasets without environment interaction. The major challenges are to provide guarantees on the (1) performance and (2) safety of the resulting policy. A technique called safe policy improvement (SPI) provides a performance guarantee: with high probability, the new policy outperforms a given baseline policy, which is assumed to be safe. Orthogonally, in the context of safe RL, a shield provides a safety guarantee by restricting the action space to those actions that are provably safe with respect to a given safety-relevant model. We integrate these paradigms by extending shielding to offline RL, relying solely on the available dataset and knowledge of safe and unsafe states. Then, we shield the policy improvement steps, guaranteeing, with high probability, a safe policy. Experimental results demonstrate that shielded SPI outperforms its unshielded counterpart, improving both average and worst-case performance, particularly in low-data regimes.
- Abstract(参考訳): オフライン強化学習(RL)では、環境相互作用のない固定データセットからポリシーを学習する。
主な課題は、(1)性能と(2)政策の安全性の保証を提供することである。
安全なポリシー改善(SPI)と呼ばれる技術は、パフォーマンスを保証する: 高い確率で、新しいポリシーは与えられた基本方針よりも優れ、安全であると仮定される。
直交的に、安全RLの文脈では、シールドは、与えられた安全関連モデルに対して確実に安全であるアクションにアクション空間を制限することによって、安全保証を提供する。
シールドをオフラインのRLに拡張し、利用可能なデータセットと安全でない状態の知識にのみ依存することで、これらのパラダイムを統合する。
そして、我々は政策改善のステップを守り、高い確率で安全な政策を保証します。
実験の結果,シールド付きSPIは非シールド方式よりも優れており,特に低データ方式では,平均値と最悪値の両方のパフォーマンスが向上することがわかった。
関連論文リスト
- SafeAdapt: Provably Safe Policy Updates in Deep Reinforcement Learning [15.190197265099748]
安全保証は、安全クリティカルなタスクにおける強化学習(RL)エージェントの配備の前提条件である。
現在のアプローチでは、正式な保証を提供していないか、政策の安全性を後部のみに検証する。
本稿では,Rashomon セットを導入することで,RL の安全ポリシー更新に先立つ新たな手法を提案する。
ポリシー更新に使用する任意のRLアルゴリズムに対して,その更新をRashomonセットに投影することで,形式的かつ証明可能な保証を提供できることを示す。
論文 参考訳(メタデータ) (2026-04-10T16:09:39Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - A Provable Approach for End-to-End Safe Reinforcement Learning [17.17447653795906]
安全強化学習(RL)の長年の目標は、プロセス全体を通してポリシーの安全性を確保することである。
本稿では、オフライン安全なRLと安全なポリシー展開を統合するPLS(Provably Lifetime Safe RL)手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T00:48:20Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Don't Trade Off Safety: Diffusion Regularization for Constrained Offline RL [21.316556011382932]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。
拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。
DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文 参考訳(メタデータ) (2025-02-18T00:00:03Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。