論文の概要: Foundations of Safe Online Reinforcement Learning in the Linear Quadratic Regulator: $\sqrt{T}$-Regret
- arxiv url: http://arxiv.org/abs/2504.18657v1
- Date: Fri, 25 Apr 2025 19:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.931759
- Title: Foundations of Safe Online Reinforcement Learning in the Linear Quadratic Regulator: $\sqrt{T}$-Regret
- Title(参考訳): 線形二次レギュレータにおける安全なオンライン強化学習の基礎:$\sqrt{T}$-Regret
- Authors: Benjamin Schiffer, Lucas Janson,
- Abstract要約: 我々は,安全制約付き強化学習における厳格な後悔の限界を証明した。
我々は$tildeO_T(sqrtT)$を後悔する最初の安全なアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 5.108909395876561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how to efficiently learn while adhering to safety constraints is essential for using online reinforcement learning in practical applications. However, proving rigorous regret bounds for safety-constrained reinforcement learning is difficult due to the complex interaction between safety, exploration, and exploitation. In this work, we seek to establish foundations for safety-constrained reinforcement learning by studying the canonical problem of controlling a one-dimensional linear dynamical system with unknown dynamics. We study the safety-constrained version of this problem, where the state must with high probability stay within a safe region, and we provide the first safe algorithm that achieves regret of $\tilde{O}_T(\sqrt{T})$. Furthermore, the regret is with respect to the baseline of truncated linear controllers, a natural baseline of non-linear controllers that are well-suited for safety-constrained linear systems. In addition to introducing this new baseline, we also prove several desirable continuity properties of the optimal controller in this baseline. In showing our main result, we prove that whenever the constraints impact the optimal controller, the non-linearity of our controller class leads to a faster rate of learning than in the unconstrained setting.
- Abstract(参考訳): 安全制約を守りながら効率的に学習する方法を理解することは、実践的なアプリケーションでオンライン強化学習を使用することに不可欠である。
しかし, 安全性, 探索, 搾取の複雑な相互作用により, 安全性に制約のある強化学習のための厳密な後悔境界の証明は困難である。
本研究では,一次元線形力学系を未知のダイナミクスで制御する正準問題を研究することにより,安全制約付き強化学習の基礎を確立することを目的とする。
この問題の安全性に制約のあるバージョンについて検討し、高い確率で安全な領域に留まらなければならないこと、そして、$\tilde{O}_T(\sqrt{T})$を後悔する最初の安全なアルゴリズムを提供する。
さらに、この後悔は、安全に制約された線形システムに適した非線形コントローラの自然なベースラインである、切り離された線形コントローラのベースラインに関するものである。
この新たなベースラインの導入に加えて、このベースラインにおける最適制御器のいくつかの望ましい連続性特性も証明する。
その結果、制約が最適コントローラに影響を与えると、制御クラスの非線形性は制約のない設定よりも学習速度が速くなります。
関連論文リスト
- Stronger Regret Bounds for Safe Online Reinforcement Learning in the Linear Quadratic Regulator [5.108909395876561]
線形擬似レギュレータ(LQR)学習を未知のダイナミクスを用いて研究する。
制約付きLQR学習のための最初の$tildeO_T(sqrtT)$-regretバウンドを示す。
結果の包括的なテーマは、安全を強制することは「自由な探究」をもたらすことである。
論文 参考訳(メタデータ) (2024-10-28T14:46:14Z) - Verified Safe Reinforcement Learning for Neural Network Dynamic Models [31.245563229976145]
本稿では,非線形神経力学系における安全な制御ポリシーを学習するための新しいアプローチを提案する。
提案手法は,有限水平到達性という意味での安全性の実現を目的としている。
5つの安全な制御問題に関する実験は、我々の訓練されたコントローラーが、最先端のベースラインよりも桁違いに長い水平線上で検証された安全性を達成できることを実証している。
論文 参考訳(メタデータ) (2024-05-25T00:35:39Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity [15.940861063732608]
直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。
線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。
私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
論文 参考訳(メタデータ) (2021-01-04T16:00:46Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。