論文の概要: Near-Optimal Regret for the Safe Learning-based Control of the Constrained Linear Quadratic Regulator
- arxiv url: http://arxiv.org/abs/2604.22158v1
- Date: Fri, 24 Apr 2026 02:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.308227
- Title: Near-Optimal Regret for the Safe Learning-based Control of the Constrained Linear Quadratic Regulator
- Title(参考訳): 制約付き線形二次レギュレータの安全な学習制御のための準最適レギュレータ
- Authors: Spencer Hutchinson, Nanfei Jiang, Mahnoosh Alizadeh,
- Abstract要約: 線形二次規制器 (LQR) の適応制御の問題点について検討する。
我々は、この問題に$tildeO(sqrtT)$ regret と、チャンス制約の満足度を示すことで貢献する。
提案するアルゴリズムは,SDPを用いて楽観的なポリシーを選択し,検証可能な安全になるまで,このポリシーを"スケールバック"する。
- 参考スコア(独自算出の注目度): 2.4961059113841952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of adaptive control of the stochastic linear quadratic regulator (LQR) with constraints that must be satisfied at every time step. Prior work on the multidimensional problem has shown $\tilde{O}(T^{2/3})$ regret and satisfaction of robust constraints, leaving open the question of whether $\tilde{O}(\sqrt{T})$ regret can be attained in the constrained LQR setting. We contribute to this problem by showing $\tilde{O}(\sqrt{T})$ regret and satisfaction of chance constraints. This type of constraints allow us to handle unbounded noise and also enable analytical techniques not directly applicable to robust constraints. Our proposed algorithm for this problem uses an SDP to select an optimistic policy, and then "scales back" this policy until it is verifiably-safe. Our theoretical analysis establishes regret and constraint guarantees via a key lemma that bounds the system covariance in terms of the chosen policy. This covariance-based analysis is in contrast with the cost-to-go based analysis that is typically used in adaptive LQR.
- Abstract(参考訳): 本稿では, 確率線形2次レギュレータ(LQR)の適応制御の問題について検討する。
この多次元問題に関する以前の研究は、$\tilde{O}(T^{2/3})$後悔と堅牢な制約の満足度を示しており、$\tilde{O}(T^{2/3})$後悔は制約付きLQR設定で達成できるかどうかという疑問を解き放つ。
我々はこの問題に$\tilde{O}(\sqrt{T})$ regret and satisfaction of chance constraints を示すことで貢献する。
このタイプの制約は、非有界ノイズを処理でき、また、ロバストな制約に直接適用できない分析技術を可能にする。
提案するアルゴリズムは,SDPを用いて楽観的なポリシーを選択し,検証可能な安全になるまで,このポリシーを"スケールバック"する。
我々の理論的分析は、選択されたポリシーの観点でシステムの共分散を束縛するキー補題を通じて、後悔と制約の保証を確立する。
この共分散に基づく分析は、通常適応型LQRで使用されるコスト・ツー・ゴーに基づく分析とは対照的である。
関連論文リスト
- Almost Surely $\sqrt{T}$ Regret for Adaptive LQR [3.8499701725610285]
ほぼ確実に$tilde MathcalO(sqrtT)$ regret upper boundを持つ適応型LQRコントローラを提案する。
コントローラは、潜在的な安全違反を回避し、パラメータ推定の収束を保証する回路破壊機構を備えている。
論文 参考訳(メタデータ) (2023-01-13T13:35:43Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文 参考訳(メタデータ) (2022-06-17T02:47:53Z) - Dynamic Regret Minimization for Control of Non-stationary Linear
Dynamical Systems [18.783925692307054]
本稿では,$tildemathcalO(sqrtST)$を最適にリセットするアルゴリズムを提案する。
本アルゴリズムの要点は適応的非定常性検出戦略であり,最近開発されたコンテキスト多重武装バンドイット問題に対するアプローチに基づいている。
論文 参考訳(メタデータ) (2021-11-06T01:30:51Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation [107.06364966905821]
線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。
我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
論文 参考訳(メタデータ) (2020-07-13T16:30:47Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。