論文の概要: Synthesizing Safe Policies under Probabilistic Constraints with
Reinforcement Learning and Bayesian Model Checking
- arxiv url: http://arxiv.org/abs/2005.03898v2
- Date: Sat, 6 Feb 2021 10:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 11:40:44.330619
- Title: Synthesizing Safe Policies under Probabilistic Constraints with
Reinforcement Learning and Bayesian Model Checking
- Title(参考訳): 強化学習とベイズモデルチェックによる確率的制約下での安全ポリシーの合成
- Authors: Lenz Belzner and Martin Wirsing
- Abstract要約: 制約条件下での強化学習者の要求仕様作成のためのフレームワークを提案する。
本研究では,制約満足度に対するエージェントの信頼度が,学習過程における最適化と安全性のバランスをとる上で有用な信号であることを示す。
- 参考スコア(独自算出の注目度): 4.797216015572358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to leverage epistemic uncertainty about constraint satisfaction of
a reinforcement learner in safety critical domains. We introduce a framework
for specification of requirements for reinforcement learners in constrained
settings, including confidence about results. We show that an agent's
confidence in constraint satisfaction provides a useful signal for balancing
optimization and safety in the learning process.
- Abstract(参考訳): 安全クリティカルドメインにおける強化学習者の制約満足度に関する認識の不確実性を活用することを提案する。
制約条件下での強化学習者の要求仕様の枠組みを,結果に対する自信を含めて紹介する。
制約満足度に対するエージェントの自信は、学習プロセスにおける最適化と安全性のバランスをとる上で有用なシグナルとなる。
関連論文リスト
- Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。
本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。
本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-20T01:37:21Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Iterative Reachability Estimation for Safe Reinforcement Learning [23.942701020636882]
安全制約付き強化学習(RL)環境のための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。
違反のないポリシーが存在する現実的な環境では、永続的な安全を維持しながら報酬を最適化します。
安全ガイム, PyBullet, および MuJoCo を用いた安全RL環境の多種多様な構成について, 提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-24T02:36:42Z) - Safe Reinforcement Learning From Pixels Using a Stochastic Latent
Representation [3.5884936187733394]
我々は,画素観測による安全強化学習の課題に対処する。
制約付き、部分的に観測可能なマルコフ決定プロセスフレームワークで問題を定式化する。
我々は、潜伏アクター批判(SLAC)アプローチを用いて、新しい安全評論家を採用する。
論文 参考訳(メタデータ) (2022-10-02T19:55:42Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities:
Robustness, Safety, and Generalizability [23.82257896376779]
信頼に足る強化学習アルゴリズムは、現実世界の問題を解決するのに長けるべきである。
本研究の目的は、信頼に値する強化学習の主な視点を概観することである。
論文 参考訳(メタデータ) (2022-09-16T16:10:08Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。