論文の概要: Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions
- arxiv url: http://arxiv.org/abs/2505.10947v2
- Date: Mon, 19 May 2025 17:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.669652
- Title: Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions
- Title(参考訳): 一般化リアプノフ関数を用いた強化学習の安定性の証明
- Authors: Kehan Long, Jorge Cortés, Nikolay Atanasov,
- Abstract要約: 最適制御・強化学習(RL)に基づく制御ポリシ下での閉ループシステムの安定性の証明問題について検討する。
古典的なリャプノフ法は、リャプノフ関数の厳格な段階的減少を必要とするが、そのような証明は学習された制御ポリシーのために構築することは困難である。
ニューラルネットワーク残差項でRL値関数を増大させることにより、一般化されたリアプノフ関数を学習するためのアプローチを定式化する。
- 参考スコア(独自算出の注目度): 15.306107403623075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of certifying the stability of closed-loop systems under control policies derived from optimal control or reinforcement learning (RL). Classical Lyapunov methods require a strict step-wise decrease in the Lyapunov function but such a certificate is difficult to construct for a learned control policy. The value function associated with an RL policy is a natural Lyapunov function candidate but it is not clear how it should be modified. To gain intuition, we first study the linear quadratic regulator (LQR) problem and make two key observations. First, a Lyapunov function can be obtained from the value function of an LQR policy by augmenting it with a residual term related to the system dynamics and stage cost. Second, the classical Lyapunov decrease requirement can be relaxed to a generalized Lyapunov condition requiring only decrease on average over multiple time steps. Using this intuition, we consider the nonlinear setting and formulate an approach to learn generalized Lyapunov functions by augmenting RL value functions with neural network residual terms. Our approach successfully certifies the stability of RL policies trained on Gymnasium and DeepMind Control benchmarks. We also extend our method to jointly train neural controllers and stability certificates using a multi-step Lyapunov loss, resulting in larger certified inner approximations of the region of attraction compared to the classical Lyapunov approach. Overall, our formulation enables stability certification for a broad class of systems with learned policies by making certificates easier to construct, thereby bridging classical control theory and modern learning-based methods.
- Abstract(参考訳): 最適制御や強化学習(RL)から導かれる制御ポリシの下で,閉ループシステムの安定性を証明している問題について検討する。
古典的なリャプノフ法は、リャプノフ関数を厳格に段階的に減少させる必要があるが、そのような証明は学習された制御ポリシーのために構築することは困難である。
RLポリシーに付随する値関数は自然なリャプノフ関数候補であるが、どのように修正されるべきかは明らかではない。
直観を得るために,まず線形2次レギュレータ(LQR)問題について検討し,二つの重要な観察を行った。
まず、LQRポリシーの値関数からLyapunov関数をシステム力学とステージコストに関連する残項で拡張することで得られる。
第二に、古典的なリャプノフ減少条件は、複数の時間ステップで平均的な減少しか要求しない一般化されたリャプノフ条件に緩和することができる。
この直観を用いて、非線形な設定を考慮し、ニューラルネットワーク残差項でRL値関数を増大させることにより一般化されたリアプノフ関数を学習するアプローチを定式化する。
提案手法は,GymnasiumおよびDeepMind Controlベンチマークに基づいてトレーニングされたRLポリシーの安定性を証明した。
また,マルチステップのリアプノフ損失を用いて,ニューラルコントローラと安定性証明を共同トレーニングするように拡張し,古典的なリャプノフアプローチと比較してアトラクション領域の精度の高い内部近似を行った。
本定式化により,古典的制御理論と近代的学習法を橋渡しし,書式の構築を容易にし,学習方針を持つ幅広いシステムに対する安定性の保証が可能となった。
関連論文リスト
- Analytical Lyapunov Function Discovery: An RL-based Generative Approach [6.752429418580116]
解析的リアプノフ関数(ローカル)を構築するために変換器を用いたエンドツーエンドフレームワークを提案する。
本フレームワークは,候補リアプノフ関数を生成するトランスフォーマーベーストレーナーと,候補表現を検証するファルシファイアから構成される。
本稿では,制御文献に未同定なリアプノフ関数が発見可能であることを示す。
論文 参考訳(メタデータ) (2025-02-04T05:04:15Z) - Lyapunov-stable Neural Control for State and Output Feedback: A Novel Formulation [67.63756749551924]
学習ベースのニューラルネットワーク(NN)制御ポリシは、ロボット工学と制御の幅広いタスクにおいて、印象的な経験的パフォーマンスを示している。
非線形力学系を持つNNコントローラのトラクション領域(ROA)に対するリアプノフ安定性の保証は困難である。
我々は、高速な経験的ファルシフィケーションと戦略的正則化を用いて、Lyapunov証明書とともにNNコントローラを学習するための新しいフレームワークを実証する。
論文 参考訳(メタデータ) (2024-04-11T17:49:15Z) - Neural Lyapunov Control for Discrete-Time Systems [30.135651803114307]
一般的なアプローチは、リャプノフ関数と関連する制御ポリシーの組み合わせを計算することである。
ニューラルネットワークを用いてリアプノフ関数を表現するいくつかの手法が提案されている。
離散時間系におけるニューラルリアプノフ制御の学習のための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-11T03:28:20Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Lyapunov-Regularized Reinforcement Learning for Power System Transient
Stability [5.634825161148484]
本稿では、損失ネットワークにおける過渡安定性のための最適周波数制御のためのLyapunov正規化RLアプローチを提案する。
ケーススタディでは、リアプノフ正則化の導入により、コントローラの安定化と損失の低減が可能になる。
論文 参考訳(メタデータ) (2021-03-05T18:55:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。