論文の概要: Reinforcement Learning for Control with Probabilistic Stability Guarantee: A Finite-Sample Approach
- arxiv url: http://arxiv.org/abs/2603.00043v1
- Date: Mon, 09 Feb 2026 06:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:07.988635
- Title: Reinforcement Learning for Control with Probabilistic Stability Guarantee: A Finite-Sample Approach
- Title(参考訳): 確率的安定保証を用いた制御のための強化学習:有限サンプルアプローチ
- Authors: Minghao Han, Lixian Zhang, Chenliang Liu, Zhipeng Zhou, Jun Wang, Wei Pan,
- Abstract要約: 有限個のサンプル軌道のみを用いて平均二乗安定性を保証する確率安定性定理を提案する。
我々は古典的REINFORCEアルゴリズムを安定化問題に拡張するRLアルゴリズムL-REINFORCEを開発した。
L-REINFORCEの有効性は、Cartpoleタスクのシミュレーションによって示され、安定性を確保するためにベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 21.52137522762386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel approach to reinforcement learning (RL) for control systems that provides probabilistic stability guarantees using finite data. Leveraging Lyapunov's method, we propose a probabilistic stability theorem that ensures mean square stability using only a finite number of sampled trajectories. The probability of stability increases with the number and length of trajectories, converging to certainty as data size grows. Additionally, we derive a policy gradient theorem for stabilizing policy learning and develop an RL algorithm, L-REINFORCE, that extends the classical REINFORCE algorithm to stabilization problems. The effectiveness of L-REINFORCE is demonstrated through simulations on a Cartpole task, where it outperforms the baseline in ensuring stability. This work bridges a critical gap between RL and control theory, enabling stability analysis and controller design in a model-free framework with finite data.
- Abstract(参考訳): 本稿では、有限データを用いた確率的安定性保証を提供する制御系に対する強化学習(RL)に対する新しいアプローチを提案する。
リャプノフの手法を応用し、有限個のサンプル軌道のみを用いて平均二乗安定性を保証する確率安定性定理を提案する。
安定性の確率は、軌跡の数と長さとともに増加し、データサイズが大きくなるにつれて確実性に収束する。
さらに、政策学習の安定化のためのポリシー勾配定理を導出し、古典的REINFORCEアルゴリズムを安定化問題に拡張するRLアルゴリズムL-REINFORCEを開発する。
L-REINFORCEの有効性は、Cartpoleタスクのシミュレーションによって示され、安定性を確保するためにベースラインよりも優れている。
この研究は、RLと制御理論の間に重要なギャップを埋め、有限データを持つモデルフリーフレームワークにおける安定性解析とコントローラ設計を可能にする。
関連論文リスト
- Stabilizing Policy Optimization via Logits Convexity [59.242732612484474]
モデルロジットに対する教師付き微調整損失の凸性は、安定したトレーニングを可能にする上で重要な役割を担っていることを示す。
そこで本研究では,ロジッツ・コンベックス最適化(Logits Convex Optimization, LCO)を提案する。
論文 参考訳(メタデータ) (2026-03-01T07:40:12Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Stable and Safe Human-aligned Reinforcement Learning through Neural Ordinary Differential Equations [1.5413714916429737]
本稿では、このようなヒューマンアライメントタスクに対して、安全性と安定性の定義を提供する。
ニューラル常微分方程式(NODE)を用いて人やロボットの動きを予測するアルゴリズムを提案する。
シミュレーションの結果、制御されたロボットが、より少ない安全性違反で望ましい目標状態に達するのを助けることが示される。
論文 参考訳(メタデータ) (2024-01-23T23:50:19Z) - A Policy Optimization Method Towards Optimal-time Stability [15.722871779526526]
サンプリングに基づくリアプノフ安定性を取り入れた政策最適化手法を提案する。
我々のアプローチは、最適時間内にシステムの状態が平衡点に達することを可能にする。
論文 参考訳(メタデータ) (2023-01-02T04:19:56Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples [4.777323087050061]
多くの実世界の産業アプリケーションでは、例えば人間の操作者による実行など、既存の制御戦略を持つことが典型的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、この未知の、安全だが、最適でないポリシーを改善することである。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
論文 参考訳(メタデータ) (2020-02-21T16:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。