論文の概要: Foundations of Safe Online Reinforcement Learning in the Linear Quadratic Regulator: Generalized Baselines
- arxiv url: http://arxiv.org/abs/2410.21081v2
- Date: Tue, 29 Apr 2025 16:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 00:39:29.391228
- Title: Foundations of Safe Online Reinforcement Learning in the Linear Quadratic Regulator: Generalized Baselines
- Title(参考訳): 線形二次レギュレータにおける安全なオンライン強化学習の基礎:一般化ベースライン
- Authors: Benjamin Schiffer, Lucas Janson,
- Abstract要約: 安全制約のある強化学習の理論的基盤を確立する。
我々の主な貢献は、非線形コントローラのより強いベースラインを研究するための一般的なフレームワークである。
これらの結果を証明するために,非線形制御のための新しい不確実性推定を導入する。
- 参考スコア(独自算出の注目度): 5.108909395876561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many practical applications of online reinforcement learning require the satisfaction of safety constraints while learning about the unknown environment. In this work, we establish theoretical foundations for reinforcement learning with safety constraints by studying the canonical problem of Linear Quadratic Regulator learning with unknown dynamics, but with the additional constraint that the position must stay within a safe region for the entire trajectory with high probability. Our primary contribution is a general framework for studying stronger baselines of nonlinear controllers that are better suited for constrained problems than linear controllers. Due to the difficulty of analyzing non-linear controllers in a constrained problem, we focus on 1-dimensional state- and action- spaces, however we also discuss how we expect the high-level takeaways can generalize to higher dimensions. Using our framework, we show that for \emph{any} non-linear baseline satisfying natural assumptions, $\tilde{O}_T(\sqrt{T})$-regret is possible when the noise distribution has sufficiently large support, and $\tilde{O}_T(T^{2/3})$-regret is possible for \emph{any} subgaussian noise distribution. In proving these results, we introduce a new uncertainty estimation bound for nonlinear controls which shows that enforcing safety in the presence of sufficient noise can provide ``free exploration'' that compensates for the added cost of uncertainty in safety-constrained control.
- Abstract(参考訳): オンライン強化学習の実践的応用の多くは、未知の環境について学ぶ際に、安全制約の満足度を必要とする。
本研究では、線形二次レギュレータ学習の正準問題を未知のダイナミクスで研究することで、安全制約付き強化学習の理論的基礎を確立するが、高い確率で軌道全体の安全な領域に留まる必要があるという追加の制約を課す。
我々の主な貢献は、線形コントローラよりも制約のある問題に適している非線形コントローラのより強いベースラインを研究するための一般的なフレームワークである。
制約のある問題において非線形コントローラを解析することが困難であるため、1次元状態空間とアクション空間に焦点をあてるが、高次テイクアウトがより高次元に一般化できると期待することについても論じる。
本フレームワークを用いて,自然仮定を満たす非線形ベースラインに対して,雑音分布が十分に大きい場合には,$\tilde{O}_T(\sqrt{T})$-regretが,$\tilde{O}_T(T^{2/3})$-regretが可能であることを示す。
これらの結果の証明において, 非線形制御に対する新たな不確実性推定法を導入し, 安全制約制御における不確実性の付加コストを補う「自由探索」を実現できることを示した。
関連論文リスト
- Foundations of Safe Online Reinforcement Learning in the Linear Quadratic Regulator: $\sqrt{T}$-Regret [5.108909395876561]
我々は,安全制約付き強化学習における厳格な後悔の限界を証明した。
我々は$tildeO_T(sqrtT)$を後悔する最初の安全なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2025-04-25T19:22:57Z) - Regret Bounds for Episodic Risk-Sensitive Linear Quadratic Regulator [5.445357652101423]
リスクに敏感な線形二次規制は、リスクに敏感な最適制御における最も基本的な問題の1つである。
簡単な最小二乗グリーディアルゴリズムを提案し、そのアルゴリズムが$widetildemathcalO(log N)$ regretを達成することを示す。
これは、エピソード的リスクに敏感な線形二次的レギュレータに対する最初の後悔の束である。
論文 参考訳(メタデータ) (2024-06-08T06:06:20Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Learning Control Policies for Stochastic Systems with Reach-avoid
Guarantees [20.045860624444494]
本研究では,形式的リーチ回避保証付き離散時間非線形力学系における学習制御装置の問題点について検討する。
我々は,本研究で導入した新しい概念であるRASM(リーチ・アビド・スーパーマーチンゲール)の形で証明書を学習する。
当社のアプローチでは,コントロールポリシをスクラッチから学習したり,固定されたコントロールポリシのリーチ回避仕様を検証したり,事前訓練されたポリシを微調整したり,といった,いくつかの重要な問題を解決しています。
論文 参考訳(メタデータ) (2022-10-11T10:02:49Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - On the Stability of Nonlinear Receding Horizon Control: A Geometric
Perspective [72.7951562665449]
産業における非線形回帰制御(RHC)戦略の広範な採用には30年以上がかかる。
本稿では,グローバル・ジオメトリの役割を理解するための第一歩として,グローバル・ベース・コントロールの役割について述べる。
論文 参考訳(メタデータ) (2021-03-27T22:59:37Z) - Safe Learning of Uncertain Environments for Nonlinear Control-Affine
Systems [10.918870296899245]
未知の添加不確実性を受ける非線形制御アフィン系における安全な学習の問題を検討する。
我々はガウス信号として不確実性をモデル化し、状態測定を用いて平均と共分散境界を学習する。
学習と制御が同時に行われる間、我々は任意に大きな確率で状態が安全なセットにとどまることを保証することができることを示しています。
論文 参考訳(メタデータ) (2021-03-02T01:58:02Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity [15.940861063732608]
直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。
線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。
私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
論文 参考訳(メタデータ) (2021-01-04T16:00:46Z) - Information Theoretic Regret Bounds for Online Nonlinear Control [35.534829914047336]
未知の非線形力学系における逐次制御の問題について検討する。
この枠組みは、離散的かつ連続的な制御入力と非滑らかで微分不可能な力学を許容する一般的な設定を与える。
実験により, 非線形制御タスクへの応用を実証し, モデル力学の学習における探索の利点を実証する。
論文 参考訳(メタデータ) (2020-06-22T17:46:48Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Regret Minimization in Partially Observable Linear Quadratic Control [91.43582419264763]
モデル力学が未知の先行性を持つ場合、部分的に観測可能な線形二次制御系における後悔の問題を考察する。
本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。
論文 参考訳(メタデータ) (2020-01-31T22:35:08Z) - Constrained Upper Confidence Reinforcement Learning [12.919486518128734]
本稿では,報酬関数とコスト関数によって記述される制約が事前に不明な設定に対する高信頼強化学習を拡張した。
我々は,アルゴリズムC-UCRLが,確率1-delta$で学習しながらも,制約を満たすことなく,報酬に対するサブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2020-01-26T00:23:02Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。