論文の概要: Regret Bounds for Adaptive Nonlinear Control
- arxiv url: http://arxiv.org/abs/2011.13101v1
- Date: Thu, 26 Nov 2020 03:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 12:43:47.264606
- Title: Regret Bounds for Adaptive Nonlinear Control
- Title(参考訳): 適応非線形制御のための後悔境界
- Authors: Nicholas M. Boffi and Stephen Tu and Jean-Jacques E. Slotine
- Abstract要約: 条件の不確実性を考慮した適応非線形制御のための最初の有限時間後悔境界を証明した。
モデル外乱の完全な知識を持つオラクルコントローラと比較して,一定の等価適応制御に苦しむ後悔は,期待して$widetildeO(sqrtT)$で上界となることを示す。
- 参考スコア(独自算出の注目度): 14.489004143703825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of adaptively controlling a known discrete-time
nonlinear system subject to unmodeled disturbances. We prove the first
finite-time regret bounds for adaptive nonlinear control with matched
uncertainty in the stochastic setting, showing that the regret suffered by
certainty equivalence adaptive control, compared to an oracle controller with
perfect knowledge of the unmodeled disturbances, is upper bounded by
$\widetilde{O}(\sqrt{T})$ in expectation. Furthermore, we show that when the
input is subject to a $k$ timestep delay, the regret degrades to
$\widetilde{O}(k \sqrt{T})$. Our analysis draws connections between classical
stability notions in nonlinear control theory (Lyapunov stability and
contraction theory) and modern regret analysis from online convex optimization.
The use of stability theory allows us to analyze the challenging
infinite-horizon single trajectory setting.
- Abstract(参考訳): 非モデル化外乱を受ける既知の離散時間非線形系を適応的に制御する問題について検討する。
確率的条件下では不確実性に一致した適応非線形制御に対する最初の有限時間後悔境界を証明し、不規則な乱の完全な知識を持つオラクルコントローラと比較して、一定の同値適応制御に苦しむ後悔は期待値$\widetilde{O}(\sqrt{T})$で上界となることを示す。
さらに、入力が$k$のタイムステップ遅延を受けると、後悔は$\widetilde{O}(k \sqrt{T})$に分解される。
非線形制御理論(リャプノフ安定性と収縮理論)における古典的安定性の概念と、オンライン凸最適化による現代の後悔分析の関連性について述べる。
安定性理論を用いることで、挑戦的な無限水平単軌道設定を解析できる。
関連論文リスト
- Stability Bounds for Learning-Based Adaptive Control of Discrete-Time
Multi-Dimensional Stochastic Linear Systems with Input Constraints [3.8004168340068336]
本研究では,有界制御入力制約と非有界障害を有する離散時間多次元システムの適応安定化問題について考察する。
本稿では,オンラインパラメータ推定と飽和線形制御を組み合わせた等価制御手法を提案する。
論文 参考訳(メタデータ) (2023-04-02T16:38:13Z) - Learning-Based Adaptive Control for Stochastic Linear Systems with Input
Constraints [3.8004168340068336]
そこで本研究では,加法的対象であるスカラー線形系の適応制御のための確実な等価性スキームを提案する。
系が極端に安定であると仮定すると、閉ループ系状態の平均二乗有界性は証明される。
論文 参考訳(メタデータ) (2022-09-15T04:49:06Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Robust Online Control with Model Misspecification [96.23493624553998]
本研究では,未知の非線形力学系のモデル不特定性を考慮したオンライン制御について検討する。
本研究は, 線形近似からの偏差を許容できる程度に測定できるロバスト性に着目した。
論文 参考訳(メタデータ) (2021-07-16T07:04:35Z) - Reinforcement learning for linear-convex models with jumps via stability
analysis of feedback controls [7.969435896173812]
有限線型時間連続時間地平線学習問題をエピソディックな設定で研究する。
この問題では、未知のジャンプディフプロセスは非平滑凸コストに制御される。
論文 参考訳(メタデータ) (2021-04-19T13:50:52Z) - Towards a Dimension-Free Understanding of Adaptive Linear Control [49.741419094419946]
我々は、非常に高次元、あるいは無限次元の系の線形二次制御器の適応制御の問題について研究する。
無限次元システムのためのLQRのための最初の後悔の境界を提供します。
論文 参考訳(メタデータ) (2021-03-19T03:59:15Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Regret Minimization in Partially Observable Linear Quadratic Control [91.43582419264763]
モデル力学が未知の先行性を持つ場合、部分的に観測可能な線形二次制御系における後悔の問題を考察する。
本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。
論文 参考訳(メタデータ) (2020-01-31T22:35:08Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。