論文の概要: Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees
- arxiv url: http://arxiv.org/abs/2111.00411v1
- Date: Sun, 31 Oct 2021 05:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 18:03:07.067752
- Title: Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees
- Title(参考訳): 規則保証付き制約付き線形二次レギュレータの安全適応型学習制御
- Authors: Yingying Li, Subhro Das, Jeff Shamma, Na Li
- Abstract要約: 本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
- 参考スコア(独自算出の注目度): 11.627320138064684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the adaptive control of an unknown linear system with a quadratic
cost function subject to safety constraints on both the states and actions. The
challenges of this problem arise from the tension among safety, exploration,
performance, and computation. To address these challenges, we propose a
polynomial-time algorithm that guarantees feasibility and constraint
satisfaction with high probability under proper conditions. Our algorithm is
implemented on a single trajectory and does not require system restarts.
Further, we analyze the regret of our learning algorithm compared to the
optimal safe linear controller with known model information. The proposed
algorithm can achieve a $\tilde O(T^{2/3})$ regret, where $T$ is the number of
stages and $\tilde O(\cdot)$ absorbs some logarithmic terms of $T$.
- Abstract(参考訳): 本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
この問題の課題は、安全性、探索、性能、計算の間の緊張から生じる。
これらの課題に対処するために,適切な条件下で実現可能性と制約満足度を高い確率で保証する多項式時間アルゴリズムを提案する。
このアルゴリズムは単一の軌道上で実装され,システム再起動は不要である。
さらに,学習アルゴリズムの後悔点を,既知のモデル情報を用いた最適安全線形制御器と比較した。
提案したアルゴリズムは、$\tilde O(T^{2/3})$ regretを達成でき、$T$はステージの数であり、$\tilde O(\cdot)$は$T$の対数項を吸収する。
関連論文リスト
- Regret Bounds for Episodic Risk-Sensitive Linear Quadratic Regulator [5.445357652101423]
リスクに敏感な線形二次規制は、リスクに敏感な最適制御における最も基本的な問題の1つである。
簡単な最小二乗グリーディアルゴリズムを提案し、そのアルゴリズムが$widetildemathcalO(log N)$ regretを達成することを示す。
これは、エピソード的リスクに敏感な線形二次的レギュレータに対する最初の後悔の束である。
論文 参考訳(メタデータ) (2024-06-08T06:06:20Z) - Data-Driven H-infinity Control with a Real-Time and Efficient
Reinforcement Learning Algorithm: An Application to Autonomous
Mobility-on-Demand Systems [3.5897534810405403]
本稿では,線形離散時間系のH$_infty$制御を解くために,モデルフリー,リアルタイム,データ効率のQ-ラーニングに基づくアルゴリズムを提案する。
適応最適制御器を設計し、システムダイナミクスの知識を必要とせず、アクションと批評家ネットワークのパラメータをオンラインで学習する。
論文 参考訳(メタデータ) (2023-09-16T05:02:41Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Exploration for Constrained Reinforcement Learning with Provable
Guarantees [2.379828460137829]
そこで我々は,OPSRL(Optimistic-Pessimistic Safe Reinforcement Learning)アルゴリズムと呼ぶモデルベースの安全なRLアルゴリズムを提案する。
学習中の安全性制約に違反することなく, $tildemathcalO(S2sqrtA H7K/ (barC - barC_b)$ cumulative regretを達成できることを示す。
論文 参考訳(メタデータ) (2021-12-01T23:21:48Z) - Safe Online Convex Optimization with Unknown Linear Safety Constraints [0.0]
安全なオンライン凸最適化の問題について検討し、各ステップの動作は一連の線形安全制約を満たす必要がある。
線形安全性制約を指定するパラメータはアルゴリズムでは未知である。
安全なベースライン動作が可能であるという仮定の下で、SO-PGDアルゴリズムは、後悔する$O(T2/3)$を達成していることを示す。
論文 参考訳(メタデータ) (2021-11-14T19:49:19Z) - Dynamic Regret Minimization for Control of Non-stationary Linear
Dynamical Systems [18.783925692307054]
本稿では,$tildemathcalO(sqrtST)$を最適にリセットするアルゴリズムを提案する。
本アルゴリズムの要点は適応的非定常性検出戦略であり,最近開発されたコンテキスト多重武装バンドイット問題に対するアプローチに基づいている。
論文 参考訳(メタデータ) (2021-11-06T01:30:51Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。