論文の概要: Safe Reinforcement Learning via Projection on a Safe Set: How to Achieve
Optimality?
- arxiv url: http://arxiv.org/abs/2004.00915v1
- Date: Thu, 2 Apr 2020 10:11:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 09:56:07.434648
- Title: Safe Reinforcement Learning via Projection on a Safe Set: How to Achieve
Optimality?
- Title(参考訳): 安全なセットへの投影による安全な強化学習:最適性を達成するには?
- Authors: Sebastien Gros, Mario Zanon, Alberto Bemporad
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、学習方針の閉ループ動作に関する正式な保証の提供に苦慮している。
近年のコントリビューションでは、学習方針による入力のプロジェクションを安全なセットにするという提案がなされている。
本稿は、Q$-learningおよびポリシーグラデーション手法の文脈でこの問題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For all its successes, Reinforcement Learning (RL) still struggles to deliver
formal guarantees on the closed-loop behavior of the learned policy. Among
other things, guaranteeing the safety of RL with respect to safety-critical
systems is a very active research topic. Some recent contributions propose to
rely on projections of the inputs delivered by the learned policy into a safe
set, ensuring that the system safety is never jeopardized. Unfortunately, it is
unclear whether this operation can be performed without disrupting the learning
process. This paper addresses this issue. The problem is analysed in the
context of $Q$-learning and policy gradient techniques. We show that the
projection approach is generally disruptive in the context of $Q$-learning
though a simple alternative solves the issue, while simple corrections can be
used in the context of policy gradient methods in order to ensure that the
policy gradients are unbiased. The proposed results extend to safe projections
based on robust MPC techniques.
- Abstract(参考訳): すべての成功に対して、強化学習(RL)は、学習方針のクローズループ動作に関する正式な保証の提供に苦慮している。
とりわけ、安全クリティカルシステムに対するRLの安全性を保証することは、非常に活発な研究課題である。
最近のコントリビューションでは、学習ポリシーによって提供される入力を安全なセットに投影し、システムの安全性が損なわれないようにすることを提案している。
残念ながら、この操作が学習プロセスを混乱させることなく実行できるかどうかは不明だ。
この論文はこの問題に対処する。
この問題は、$q$-learningとポリシーグラデーションのテクニックの文脈で分析される。
提案手法は概して$Q$-learningの文脈で破壊的であるが、単純な代替手段ではこの問題を解決し、一方、ポリシー勾配が不偏であることを確実にするために、ポリシー勾配法の文脈では単純な修正が使用できる。
提案手法はロバストなmpc技術に基づく安全投射に拡張される。
関連論文リスト
- Conservative Exploration for Policy Optimization via Off-Policy Policy
Evaluation [4.837737516460689]
我々は,少なくとも学習者がその性能を保証できなければならない保守的な探索の問題を,少なくとも基本方針と同程度によく研究する。
連続有限ホライゾン問題におけるポリシー最適化のための最初の保守的証明可能なモデルフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-24T10:59:32Z) - Safe Reinforcement Learning via Probabilistic Logic Shields [14.996708092428447]
確率論理ポリシーグラディエント(PLPG)を紹介する。
PLPGは、確率論的論理プログラミングを用いて、論理的安全性制約を微分可能な関数としてモデル化するモデルベースのSafe RL技術である。
本実験では,PLPGが他の最先端遮蔽技術と比較して安全で報奨的な政策を学習することを示した。
論文 参考訳(メタデータ) (2023-03-06T15:43:41Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。