論文の概要: On the stability of Lipschitz continuous control problems and its application to reinforcement learning
- arxiv url: http://arxiv.org/abs/2404.13316v1
- Date: Sat, 20 Apr 2024 08:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:29:41.217482
- Title: On the stability of Lipschitz continuous control problems and its application to reinforcement learning
- Title(参考訳): リプシッツ連続制御問題の安定性と強化学習への応用について
- Authors: Namkyeong Cho, Yeoneung Kim,
- Abstract要約: モデルフリー強化学習におけるハミルトン-ヤコビ-ベルマン方程式(HJB)の重要な安定性特性について考察する。
リプシッツ連続最適制御問題と粘性解フレームワークにおける古典的最適制御問題とのギャップを埋める。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the crucial yet underexplored stability properties of the Hamilton--Jacobi--Bellman (HJB) equation in model-free reinforcement learning contexts, specifically for Lipschitz continuous optimal control problems. We bridge the gap between Lipschitz continuous optimal control problems and classical optimal control problems in the viscosity solutions framework, offering new insights into the stability of the value function of Lipschitz continuous optimal control problems. By introducing structural assumptions on the dynamics and reward functions, we further study the rate of convergence of value functions. Moreover, we introduce a generalized framework for Lipschitz continuous control problems that incorporates the original problem and leverage it to propose a new HJB-based reinforcement learning algorithm. The stability properties and performance of the proposed method are tested with well-known benchmark examples in comparison with existing approaches.
- Abstract(参考訳): モデルなし強化学習におけるハミルトン-ヤコビ-ベルマン方程式(HJB)の重要な安定性特性、特にリプシッツ連続最適制御問題に対処する。
リプシッツ連続最適制御問題と古典最適制御問題とのギャップを粘度解フレームワークで埋め、リプシッツ連続最適制御問題の値関数の安定性に関する新たな洞察を提供する。
力学と報酬関数の構造的仮定を導入することにより、値関数の収束率をさらに研究する。
さらに、リプシッツ連続制御問題に対する一般化されたフレームワークを導入し、元の問題を取り入れ、それを活用して、新しいHJBに基づく強化学習アルゴリズムを提案する。
提案手法の安定性特性と性能を,既存手法と比較してよく知られたベンチマーク例で検証した。
関連論文リスト
- Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - On the Sample Complexity of Imitation Learning for Smoothed Model Predictive Control [27.609098229134]
システムの一般的なクラスに対して,スムーズな専門家を設計する方法を示す。
凸リプシッツ関数に付随する解析中心の最適性ギャップを証明した。
論文 参考訳(メタデータ) (2023-06-02T20:43:38Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Stability Verification in Stochastic Control Systems via Neural Network
Supermartingales [17.558766911646263]
2つの新しい側面を持つ一般非線形制御問題に対するアプローチを提案する。
我々は、A.s.asymptotic stabilityの証明にランキング・スーパーガレス(RSM)を使用し、ニューラルネットワークの学習方法を提案する。
論文 参考訳(メタデータ) (2021-12-17T13:05:14Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Reinforcement learning for linear-convex models with jumps via stability
analysis of feedback controls [7.969435896173812]
有限線型時間連続時間地平線学習問題をエピソディックな設定で研究する。
この問題では、未知のジャンプディフプロセスは非平滑凸コストに制御される。
論文 参考訳(メタデータ) (2021-04-19T13:50:52Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Regularity and stability of feedback relaxed controls [4.48579723067867]
本稿では,ロバストなフィードバック制御を設計するための一般探索報酬を用いた緩和制御正則化を提案する。
正規化制御問題の値関数とフィードバック制御の両方がパラメータ摂動に関してリプシッツ安定であることを示す。
論文 参考訳(メタデータ) (2020-01-09T18:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。