論文の概要: Safe Reinforcement Learning via Probabilistic Logic Shields
- arxiv url: http://arxiv.org/abs/2303.03226v1
- Date: Mon, 6 Mar 2023 15:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:37:11.971402
- Title: Safe Reinforcement Learning via Probabilistic Logic Shields
- Title(参考訳): 確率論理シールドによる安全強化学習
- Authors: Wen-Chi Yang, Giuseppe Marra, Gavin Rens, Luc De Raedt
- Abstract要約: 確率論理ポリシーグラディエント(PLPG)を紹介する。
PLPGは、確率論的論理プログラミングを用いて、論理的安全性制約を微分可能な関数としてモデル化するモデルベースのSafe RL技術である。
本実験では,PLPGが他の最先端遮蔽技術と比較して安全で報奨的な政策を学習することを示した。
- 参考スコア(独自算出の注目度): 14.996708092428447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe Reinforcement learning (Safe RL) aims at learning optimal policies while
staying safe. A popular solution to Safe RL is shielding, which uses a logical
safety specification to prevent an RL agent from taking unsafe actions.
However, traditional shielding techniques are difficult to integrate with
continuous, end-to-end deep RL methods. To this end, we introduce Probabilistic
Logic Policy Gradient (PLPG). PLPG is a model-based Safe RL technique that uses
probabilistic logic programming to model logical safety constraints as
differentiable functions. Therefore, PLPG can be seamlessly applied to any
policy gradient algorithm while still providing the same convergence
guarantees. In our experiments, we show that PLPG learns safer and more
rewarding policies compared to other state-of-the-art shielding techniques.
- Abstract(参考訳): セーフ強化学習(Safe RL)は、安全を維持しながら最適なポリシーを学ぶことを目的としている。
Safe RLの一般的な解決策はシールドである。これは論理的安全仕様を使用して、RLエージェントが安全でないアクションを取らないようにする。
しかし、従来の遮蔽技術は、連続的なエンドツーエンドの深層RL法と統合することは困難である。
この目的のために、確率論理ポリシーグラディエント(PLPG)を紹介する。
plpgはモデルベースの安全なrl技術であり、確率論理プログラミングを用いて論理安全制約を微分可能な関数としてモデル化する。
したがって、PLPGは任意のポリシー勾配アルゴリズムにシームレスに適用でき、同じ収束保証を提供する。
本実験では,PLPGが他の最先端遮蔽技術と比較して安全で報奨的な政策を学習することを示した。
関連論文リスト
- Implicit Safe Set Algorithm for Provably Safe Reinforcement Learning [7.349727826230864]
DRLエージェントのセーフガードを合成するためのモデルフリー安全な制御アルゴリズムである暗黙のセーフセットアルゴリズムを提案する。
提案アルゴリズムは,ブラックボックスの動的関数を問合せするだけで,安全指標(バリア証明書)とその後の安全制御則を合成する。
提案アルゴリズムを最先端のSafety Gymベンチマークで検証し、95% pm 9%$ cumulative rewardを得た上で安全性違反をゼロにする。
論文 参考訳(メタデータ) (2024-05-04T20:59:06Z) - Leveraging Approximate Model-based Shielding for Probabilistic Safety
Guarantees in Continuous Environments [63.053364805943026]
近似モデルベースの遮蔽フレームワークを連続的な設定に拡張する。
特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。
論文 参考訳(メタデータ) (2024-02-01T17:55:08Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z) - Model-Based Actor-Critic with Chance Constraint for Stochastic System [6.600423613245076]
安全かつ非保守的な政策を効率的に学習できるモデルに基づくチャンス制約アクタークリティカル(CCAC)アルゴリズムを提案する。
CCACは、目的関数と安全確率が適応重みと同時に最適化される元のチャンス制約問題を直接解決します。
論文 参考訳(メタデータ) (2020-12-19T15:46:50Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。