論文の概要: Risk-Aware Safe Reinforcement Learning for Control of Stochastic Linear Systems
- arxiv url: http://arxiv.org/abs/2505.09734v1
- Date: Wed, 14 May 2025 18:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.078763
- Title: Risk-Aware Safe Reinforcement Learning for Control of Stochastic Linear Systems
- Title(参考訳): 確率線形システムの制御のためのリスク対応型安全強化学習
- Authors: Babak Esmaeili, Nariman Niknejad, Hamidreza Modares,
- Abstract要約: 本稿では,離散時間線形システムに対するリスク対応型安全強化学習制御設計を提案する。
また、RLコントローラ以外にリスクインフォームドセーフコントローラも学習し、RLとセーフコントローラを組み合わせて構成する。
この制御指向アプローチは,データ要求を低減し,安全性違反の分散を低減できることが示されている。
- 参考スコア(独自算出の注目度): 7.952582509792973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a risk-aware safe reinforcement learning (RL) control design for stochastic discrete-time linear systems. Rather than using a safety certifier to myopically intervene with the RL controller, a risk-informed safe controller is also learned besides the RL controller, and the RL and safe controllers are combined together. Several advantages come along with this approach: 1) High-confidence safety can be certified without relying on a high-fidelity system model and using limited data available, 2) Myopic interventions and convergence to an undesired equilibrium can be avoided by deciding on the contribution of two stabilizing controllers, and 3) highly efficient and computationally tractable solutions can be provided by optimizing over a scalar decision variable and linear programming polyhedral sets. To learn safe controllers with a large invariant set, piecewise affine controllers are learned instead of linear controllers. To this end, the closed-loop system is first represented using collected data, a decision variable, and noise. The effect of the decision variable on the variance of the safe violation of the closed-loop system is formalized. The decision variable is then designed such that the probability of safety violation for the learned closed-loop system is minimized. It is shown that this control-oriented approach reduces the data requirements and can also reduce the variance of safety violations. Finally, to integrate the safe and RL controllers, a new data-driven interpolation technique is introduced. This method aims to maintain the RL agent's optimal implementation while ensuring its safety within environments characterized by noise. The study concludes with a simulation example that serves to validate the theoretical results.
- Abstract(参考訳): 本稿では,確率離散時間線形システムに対するリスク認識型安全強化学習(RL)制御設計を提案する。
安全認証器を用いてRLコントローラとミオプティカルに介在するのではなく、RLコントローラ以外のリスク情報付きセーフコントローラも学習し、RLとセーフコントローラを結合する。
このアプローチにはいくつかの利点がある。
1)高信頼度システムモデルに頼らず、利用可能な限られたデータを使用することなく、高信頼度安全性を認定することができる。
2)2つの安定化制御器の寄与を決定することにより、望ましくない均衡への神秘的介入や収束を回避できる。
3)スカラー決定変数と線形計画多面体集合を最適化することにより、高効率で計算的に抽出可能な解が得られる。
大規模な不変集合を持つ安全なコントローラを学習するために、線形コントローラの代わりに断片的にアフィンコントローラが学習される。
この目的のために、クローズドループシステムは、まず収集データ、決定変数、ノイズを用いて表現される。
閉ループシステムの安全違反の分散に対する決定変数の影響を定式化する。
次に、学習した閉ループシステムの安全性違反の可能性を最小化するように決定変数を設計する。
この制御指向アプローチは,データ要求を低減し,安全性違反の分散を低減できることが示されている。
最後に、セーフコントローラとRLコントローラを統合するために、新しいデータ駆動補間技術を導入する。
本手法は,騒音を特徴とする環境下での安全性を確保しつつ,RLエージェントの最適実装を維持することを目的とする。
この研究は、理論結果の検証に役立つシミュレーションの例で締めくくっている。
関連論文リスト
- Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Stable and Safe Reinforcement Learning via a Barrier-Lyapunov
Actor-Critic Approach [1.8924647429604111]
Barrier-Lyapunov Actor-Critic(BLAC)フレームワークは、前述のシステムの安全性と安定性の維持を支援する。
RLベースのコントローラが有効な制御信号を提供できない場合、追加のバックアップコントローラが導入される。
論文 参考訳(メタデータ) (2023-04-08T16:48:49Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。