論文の概要: Provably Safe Reinforcement Learning via Action Projection using
Reachability Analysis and Polynomial Zonotopes
- arxiv url: http://arxiv.org/abs/2210.10691v1
- Date: Wed, 19 Oct 2022 16:06:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 16:05:51.071392
- Title: Provably Safe Reinforcement Learning via Action Projection using
Reachability Analysis and Polynomial Zonotopes
- Title(参考訳): 到達可能性解析と多項式ゾノトープを用いたアクションプロジェクションによる確実に安全な強化学習
- Authors: Niklas Kochdumper, Hanna Krasowski, Xiao Wang, Stanley Bak, and
Matthias Althoff
- Abstract要約: リーチ回避タスクを解く非線形連続システムの安全シールドを開発する。
我々の手法はアクションプロジェクションと呼ばれ、混合整数最適化によって実装されている。
アクションプロジェクションの他の手法とは対照的に、我々の安全シールドは入力制約や障害物を効率的に処理できる。
- 参考スコア(独自算出の注目度): 9.861651769846578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning produces very promising results for many
applications, its main disadvantage is the lack of safety guarantees, which
prevents its use in safety-critical systems. In this work, we address this
issue by a safety shield for nonlinear continuous systems that solve
reach-avoid tasks. Our safety shield prevents applying potentially unsafe
actions from a reinforcement learning agent by projecting the proposed action
to the closest safe action. This approach is called action projection and is
implemented via mixed-integer optimization. The safety constraints for action
projection are obtained by applying parameterized reachability analysis using
polynomial zonotopes, which enables to accurately capture the nonlinear effects
of the actions on the system. In contrast to other state of the art approaches
for action projection, our safety shield can efficiently handle input
constraints and dynamic obstacles, eases incorporation of the spatial robot
dimensions into the safety constraints, guarantees robust safety despite
process noise and measurement errors, and is well suited for high-dimensional
systems, as we demonstrate on several challenging benchmark systems.
- Abstract(参考訳): 強化学習は多くのアプリケーションにとって非常に有望な結果をもたらすが、その主な欠点は安全性保証の欠如である。
本研究では、リーチ回避タスクを解く非線形連続系の安全シールドによりこの問題に対処する。
提案する動作を最も安全な動作に投影することにより、強化学習エージェントから潜在的に安全でないアクションを適用することを防止する。
このアプローチはアクションプロジェクションと呼ばれ、混合整数最適化によって実装される。
多項式ゾノトープを用いてパラメータ化された到達可能性解析を適用し、システムに対するアクションの非線形効果を正確に捉えることにより、アクションプロジェクションの安全性制約を得る。
アクションプロジェクションの他の技術手法とは対照的に,我々の安全シールドは入力制約や動的障害物を効率的に処理し,空間ロボット次元を安全制約に組み込むことが容易であり,プロセスノイズや測定誤差にも拘わらず堅牢な安全性が保証され,高次元システムにも適している。
関連論文リスト
- Realizable Continuous-Space Shields for Safe Reinforcement Learning [13.728961635717134]
深層強化学習(Dep Reinforcement Learning, DRL)は、時には破滅的な障害に対して、追加の保護なしに脆弱なままである。
効果的な解決策の1つは、エージェントのアクションを検証・調整するシールドを使用して、与えられた一連の安全仕様に準拠することである。
本研究では,連続状態および行動空間における安全要件の実現可能性を自動的に保証する最初の遮蔽手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T21:08:11Z) - Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - ProBF: Learning Probabilistic Safety Certificates with Barrier Functions [31.203344483485843]
制御バリア関数は、地平系力学にアクセスできれば安全を保証できる便利なツールである。
実際には、システムダイナミクスに関する不正確な知識があるため、安全でない振る舞いにつながる可能性があります。
本手法の有効性をSegwayとQuadrotorのシミュレーション実験により示す。
論文 参考訳(メタデータ) (2021-12-22T20:18:18Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。