論文の概要: Lyapunov Constrained Soft Actor-Critic (LC-SAC) using Koopman Operator Theory for Quadrotor Trajectory Tracking
- arxiv url: http://arxiv.org/abs/2602.04132v1
- Date: Wed, 04 Feb 2026 01:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.338367
- Title: Lyapunov Constrained Soft Actor-Critic (LC-SAC) using Koopman Operator Theory for Quadrotor Trajectory Tracking
- Title(参考訳): クオプマン演算子理論を用いたリアプノフ拘束型ソフトアクタ臨界(LC-SAC)
- Authors: Dhruv S. Kushwaha, Zoleikha A. Biron,
- Abstract要約: 強化学習は複雑な意思決定問題の解決において大きな成功を収めた。
標準アルゴリズムは振動や非有界状態の発散を引き起こす物理系に報酬を与える。
リアプノフに基づく安定性保証をRLアルゴリズムに組み込むことで大きな研究がなされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has achieved remarkable success in solving complex sequential decision-making problems. However, its application to safety-critical physical systems remains constrained by the lack of stability guarantees. Standard RL algorithms prioritize reward maximization, often yielding policies that may induce oscillations or unbounded state divergence. There has significant work in incorporating Lyapunov-based stability guarantees in RL algorithms with key challenges being selecting a candidate Lyapunov function, computational complexity by using excessive function approximators and conservative policies by incorporating stability criterion in the learning process. In this work we propose a novel Lyapunov-constrained Soft Actor-Critic (LC-SAC) algorithm using Koopman operator theory. We propose use of extended dynamic mode decomposition (EDMD) to produce a linear approximation of the system and use this approximation to derive a closed form solution for candidate Lyapunov function. This derived Lyapunov function is incorporated in the SAC algorithm to further provide guarantees for a policy that stabilizes the nonlinear system. The results are evaluated trajectory tracking of a 2D Quadrotor environment based on safe-control-gym. The proposed algorithm shows training convergence and decaying violations for Lyapunov stability criterion compared to baseline vanilla SAC algorithm. GitHub Repository: https://github.com/DhruvKushwaha/LC-SAC-Quadrotor-Trajectory-Tracking
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、複雑なシーケンシャルな意思決定問題の解決に成功している。
しかし、安全クリティカルな物理システムへの適用は、安定性保証の欠如に制約されているままである。
標準RLアルゴリズムは報酬の最大化を優先し、しばしば振動や非有界状態のばらつきを引き起こすようなポリシーを導出する。
リアプノフに基づく安定性保証をRLアルゴリズムに組み込むことには、候補となるリアプノフ関数の選択、過剰関数近似を用いた計算複雑性、学習プロセスに安定性基準を組み込むことによる保守的ポリシーなど、大きな課題がある。
そこで本研究では,クープマン作用素理論を用いたLyapunov-constrained Soft Actor-Critic (LC-SAC)アルゴリズムを提案する。
拡張動的モード分解(EDMD)を用いてシステムの線形近似を生成し、この近似を用いてリアプノフ関数の閉形式解を導出する。
この導出したリャプノフ関数は SAC アルゴリズムに組み込まれ、非線形系を安定化させるポリシーをさらに保証する。
その結果, 安全な制御ジャムに基づく2次元クアドロータ環境の軌道追跡について評価した。
提案アルゴリズムは, ベースラインバニラSACアルゴリズムと比較して, リアプノフ安定基準に対するトレーニング収束と減衰違反を示す。
GitHubリポジトリ:https://github.com/DhruvKushwaha/LC-SAC-Quadrotor-Trajectory-Tracking
関連論文リスト
- DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty [21.542065840791683]
深層強化学習(英語版)(RL)は大きな成功を収めているが、実世界のシナリオにおけるその応用は、環境の不確実性に対する堅牢性の欠如によってしばしば妨げられている。
本研究では,最新技術であるSoft Actor-Critic(SAC)アルゴリズムのロバスト性を高めるために,分散ロバストなSoft Actor-Critic(DR-SAC)を提案する。
論文 参考訳(メタデータ) (2025-06-14T20:36:44Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z) - Stable Reinforcement Learning with Unbounded State Space [27.053432445897016]
待ち行列ネットワークにおけるスケジューリングの古典的問題に動機づけられた非有界状態空間による強化学習の問題を考える。
有限、有界、あるいはコンパクトな状態空間のために設計されたエラー計量と同様に伝統的なポリシーは、意味のある性能を保証するために無限のサンプルを必要とする。
我々は「良さ」の概念として安定性を提案し、政策下の状態力学は高い確率で有界な領域に留まるべきである。
論文 参考訳(メタデータ) (2020-06-08T05:00:25Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。