論文の概要: Off Policy Lyapunov Stability in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.09863v1
- Date: Thu, 11 Sep 2025 21:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.927191
- Title: Off Policy Lyapunov Stability in Reinforcement Learning
- Title(参考訳): 強化学習におけるオフポリシー・リャプノフの安定性
- Authors: Sarvan Gill, Daniela Constantinescu,
- Abstract要約: 本稿では,リャプノフ関数の非政治的学習法を提案する。
提案されたオフポリティ・リアプノフ関数を、ソフトアクター批評家およびプロキシポリシー最適化アルゴリズムに組み込む。
- 参考スコア(独自算出の注目度): 1.9193579706947885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional reinforcement learning lacks the ability to provide stability guarantees. More recent algorithms learn Lyapunov functions alongside the control policies to ensure stable learning. However, the current self-learned Lyapunov functions are sample inefficient due to their on-policy nature. This paper introduces a method for learning Lyapunov functions off-policy and incorporates the proposed off-policy Lyapunov function into the Soft Actor Critic and Proximal Policy Optimization algorithms to provide them with a data efficient stability certificate. Simulations of an inverted pendulum and a quadrotor illustrate the improved performance of the two algorithms when endowed with the proposed off-policy Lyapunov function.
- Abstract(参考訳): 従来の強化学習には安定性を保証する能力がない。
より最近のアルゴリズムは、安定学習を保証するために、制御ポリシーと共にリアプノフ関数を学習する。
しかし、現在の自己学習されたリャプノフ函数は、その政治的性質のため、標本非効率である。
本稿では,リャプノフ関数を非政治的に学習する手法を提案し,提案するオフポリティィなリャプノフ関数をソフトアクター批判・近似ポリシー最適化アルゴリズムに組み込んで,データ効率のよい安定性証明を提供する。
逆振り子と4乗子のシミュレーションは、提案されたオフポリティ・リアプノフ関数により、2つのアルゴリズムの性能が向上したことを示している。
関連論文リスト
- Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions [15.306107403623075]
最適制御・強化学習(RL)に基づく制御ポリシ下での閉ループシステムの安定性の証明問題について検討する。
古典的なリャプノフ法は、リャプノフ関数の厳格な段階的減少を必要とするが、そのような証明は学習された制御ポリシーのために構築することは困難である。
ニューラルネットワーク残差項でRL値関数を増大させることにより、一般化されたリアプノフ関数を学習するためのアプローチを定式化する。
論文 参考訳(メタデータ) (2025-05-16T07:36:40Z) - Distillation Policy Optimization [5.439020425819001]
本研究では,評価と制御の両面において2つのデータソースを調和させるアクタ批判学習フレームワークを提案する。
このフレームワークには、統一利便推定器(UAE)と残留基線を含む分散還元機構が組み込まれている。
以上の結果から,オンラインアルゴリズムのサンプル効率は大幅に向上し,非政治的アプローチとのギャップを効果的に埋めることができた。
論文 参考訳(メタデータ) (2023-02-01T15:59:57Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - On Imitation Learning of Linear Control Policies: Enforcing Stability
and Robustness Constraints via LMI Conditions [3.296303220677533]
線形ポリシーの模倣学習を制約付き最適化問題として定式化する。
線形行列不等式 (lmi) の制約を適合ポリシーに適用することで閉ループ安定性とロバスト性が保証できることを示す。
論文 参考訳(メタデータ) (2021-03-24T02:43:03Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。