論文の概要: MSACL: Multi-Step Actor-Critic Learning with Lyapunov Certificates for Exponentially Stabilizing Control
- arxiv url: http://arxiv.org/abs/2512.24955v1
- Date: Wed, 31 Dec 2025 16:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.709588
- Title: MSACL: Multi-Step Actor-Critic Learning with Lyapunov Certificates for Exponentially Stabilizing Control
- Title(参考訳): MSACL: 指数安定化制御のためのリアプノフ証明書を用いたマルチステップアクタークリティカルラーニング
- Authors: Yongwei Zhang, Yuanzhe Xing, Quan Quan, Zhikun She,
- Abstract要約: MSACLは、多段階のリャプノフ証明書学習を通じて指数安定理論を最大RLに統合するフレームワークである。
Lyapunov理論と複雑な報酬工学フレームワークを結びつけることで、MSACLは、検証可能な安全な学習ベースの制御の基礎を提供する。
- 参考スコア(独自算出の注目度): 10.587385707657429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving provable stability in model-free reinforcement learning (RL) remains a challenge, particularly in balancing exploration with rigorous safety. This article introduces MSACL, a framework that integrates exponential stability theory with maximum entropy RL through multi-step Lyapunov certificate learning. Unlike methods relying on complex reward engineering, MSACL utilizes off-policy multi-step data to learn Lyapunov certificates satisfying theoretical stability conditions. By introducing Exponential Stability Labels (ESL) and a $λ$-weighted aggregation mechanism, the framework effectively balances the bias-variance trade-off in multi-step learning. Policy optimization is guided by a stability-aware advantage function, ensuring the learned policy promotes rapid Lyapunov descent. We evaluate MSACL across six benchmarks, including stabilization and nonlinear tracking tasks, demonstrating its superiority over state-of-the-art Lyapunov-based RL algorithms. MSACL achieves exponential stability and rapid convergence under simple rewards, while exhibiting significant robustness to uncertainties and generalization to unseen trajectories. Sensitivity analysis establishes the multi-step horizon $n=20$ as a robust default across diverse systems. By linking Lyapunov theory with off-policy actor-critic frameworks, MSACL provides a foundation for verifiably safe learning-based control. Source code and benchmark environments will be made publicly available.
- Abstract(参考訳): モデルフリー強化学習(RL)における証明可能な安定性の実現は、特に厳格な安全性と探索のバランスをとる上で、依然として課題である。
本稿では,多段階のリャプノフ証明書学習を通じて指数安定理論と最大エントロピーRLを統合するフレームワークであるMSACLを紹介する。
複雑な報酬工学に依存する手法とは異なり、MSACLは、理論的な安定性条件を満たすリアプノフ証明書を学習するために、外部の多段階データを利用する。
Exponential Stability Labels (ESL) と$λ$-weighted aggregate mechanismを導入することで、多段階学習におけるバイアス分散トレードオフを効果的にバランスさせる。
政策最適化は安定性に配慮した優位関数によって導かれ、学習された政策がラプノフの急速な降下を促進することを保証する。
我々は、安定化や非線形追跡タスクを含む6つのベンチマークでMSACLを評価し、最先端のリアプノフベースのRLアルゴリズムよりも優れていることを示す。
MSACLは、単純な報酬の下で指数的安定性と急激な収束を達成すると同時に、不確実性に対する顕著な堅牢性と、目に見えない軌道への一般化を示す。
感度解析は、多段階の水平線$n=20$を、多様なシステム間の堅牢なデフォルトとして確立する。
リアプノフ理論と非政治的なアクター批判的枠組みを結びつけることで、MSACLは学習ベースの制御を検証可能な安全なものにする基盤を提供する。
ソースコードとベンチマーク環境は一般公開される予定だ。
関連論文リスト
- Stable and Efficient Single-Rollout RL for Multimodal Reasoning [66.53652874617217]
$textbfMSSR$ (Multimodal Stabilized Single-Rollout)はグループフリーのRLVRフレームワークで、安定した最適化と効果的なマルチモーダル推論性能を実現する。
分散評価では、MSSRはトレーニングの効率が良く、トレーニングの歩数の半分でグループベースベースラインに類似した検証精度を達成できる。
論文 参考訳(メタデータ) (2025-12-20T05:07:53Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Lyapunov Stability Learning with Nonlinear Control via Inductive Biases [21.083462885546556]
制御Lyapunov関数(CLF)をコントローラで動的システムで見つけることは、安定性を保証する効果的な方法である。
近年, CLFを表現したディープラーニングモデルを学習者検証フレームワークに適用し, 満足度の高い候補を同定している。
我々は、リアプノフ条件を誘導バイアスとして扱うことにより、この枠組みを改善し、この知識によって導かれる神経CLFとCLFベースのコントローラを設計する。
論文 参考訳(メタデータ) (2025-11-03T06:57:37Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions [15.306107403623075]
最適制御・強化学習(RL)に基づく制御ポリシ下での閉ループシステムの安定性の証明問題について検討する。
古典的なリャプノフ法は、リャプノフ関数の厳格な段階的減少を必要とするが、そのような証明は学習された制御ポリシーのために構築することは困難である。
ニューラルネットワーク残差項でRL値関数を増大させることにより、一般化されたリアプノフ関数を学習するためのアプローチを定式化する。
論文 参考訳(メタデータ) (2025-05-16T07:36:40Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。