論文の概要: Identification and Adaptive Control of Markov Jump Systems: Sample
Complexity and Regret Bounds
- arxiv url: http://arxiv.org/abs/2111.07018v1
- Date: Sat, 13 Nov 2021 02:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 14:52:30.204520
- Title: Identification and Adaptive Control of Markov Jump Systems: Sample
Complexity and Regret Bounds
- Title(参考訳): マルコフジャンプシステムの同定と適応制御:サンプル複雑性と後悔境界
- Authors: Yahya Sattar and Zhe Du and Davoud Ataee Tarzanagh and Laura Balzano
and Necmiye Ozay and Samet Oymak
- Abstract要約: 本稿では,未知のマルコフジャンプ線形系 (MJS) を2次目的に最適化する問題を考える。
まず,MJSが各モードの力学を学習するためのシステム識別アルゴリズムを提案する。
そこで本研究では,システム識別と等価な制御を併用した適応制御方式を提案する。
- 参考スコア(独自算出の注目度): 24.74448154832031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning how to effectively control unknown dynamical systems is crucial for
intelligent autonomous systems. This task becomes a significant challenge when
the underlying dynamics are changing with time. Motivated by this challenge,
this paper considers the problem of controlling an unknown Markov jump linear
system (MJS) to optimize a quadratic objective. By taking a model-based
perspective, we consider identification-based adaptive control for MJSs. We
first provide a system identification algorithm for MJS to learn the dynamics
in each mode as well as the Markov transition matrix, underlying the evolution
of the mode switches, from a single trajectory of the system states, inputs,
and modes. Through mixing-time arguments, sample complexity of this algorithm
is shown to be $\mathcal{O}(1/\sqrt{T})$. We then propose an adaptive control
scheme that performs system identification together with certainty equivalent
control to adapt the controllers in an episodic fashion. Combining our sample
complexity results with recent perturbation results for certainty equivalent
control, we prove that when the episode lengths are appropriately chosen, the
proposed adaptive control scheme achieves $\mathcal{O}(\sqrt{T})$ regret, which
can be improved to $\mathcal{O}(polylog(T))$ with partial knowledge of the
system. Our proof strategy introduces innovations to handle Markovian jumps and
a weaker notion of stability common in MJSs. Our analysis provides insights
into system theoretic quantities that affect learning accuracy and control
performance. Numerical simulations are presented to further reinforce these
insights.
- Abstract(参考訳): 未知の力学系を効果的に制御する方法を学ぶことは、インテリジェントな自律システムにとって重要である。
このタスクは、基盤となるダイナミクスが時間とともに変化する場合、大きな課題になります。
本稿では,未知のマルコフジャンプ線形系(mjs)を2次目標に最適化するために制御する問題を考察する。
MJSの識別に基づく適応制御をモデルベースの観点から検討する。
まず, システム状態, 入力, モードの単一軌跡から, モードスイッチの進化の基盤となるマルコフ遷移行列とともに, MJS が各モードの力学を学習するためのシステム同定アルゴリズムを提案する。
混合時間引数によって、このアルゴリズムのサンプル複雑性は$\mathcal{o}(1/\sqrt{t})$であることが示される。
そこで我々は,システム同定と等価な制御を併用して適応制御方式を提案し,制御器をエピソード方式で適応させる。
サンプルの複雑さの結果と最近の摂動解析結果とを組み合わせることで、エピソードの長さが適切に選択されると、提案された適応制御スキームが$\mathcal{o}(\sqrt{t})$ regretを達成し、システムの部分的な知識とともに$\mathcal{o}(polylog(t))$に改善できることを証明します。
我々の実証戦略はマルコフジャンプとMJSに共通する安定性の弱い概念を扱うイノベーションを導入している。
我々の分析は、学習精度と制御性能に影響を与えるシステム理論量に関する洞察を提供する。
数値シミュレーションはこれらの知見をさらに強化するために提示される。
関連論文リスト
- Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Mode Reduction for Markov Jump Systems [8.450188319487989]
マルコフ・ジャンプ・リニア・システム (MJS) は、マルコフ連鎖に従ってアクティブモードが切替される切替システムの特別なクラスである。
教師なし学習のクラスタリング技術にインスパイアされた我々は、より少ないモードで縮小されたMJSを構築することができる。
計算コストを大幅に削減した安定性と設計のコントローラを, MJS の削減にどのように利用できるかを示す。
論文 参考訳(メタデータ) (2022-05-05T15:06:10Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Certainty Equivalent Quadratic Control for Markov Jump Systems [24.744481548320305]
本稿では,2次コスト関数を持つMJSにおけるモデルベース最適制御のロバスト性について検討する。
我々は、それぞれ $mathcalO(epsilon + eta)$ と $mathcalO((epsilon + eta)2)$ として崩壊する明示的な摂動境界を提供する。
論文 参考訳(メタデータ) (2021-05-26T06:45:47Z) - A Novel Anomaly Detection Algorithm for Hybrid Production Systems based
on Deep Learning and Timed Automata [73.38551379469533]
DAD:DeepAnomalyDetectionは,ハイブリッド生産システムにおける自動モデル学習と異常検出のための新しいアプローチである。
深層学習とタイムドオートマトンを組み合わせて、観察から行動モデルを作成する。
このアルゴリズムは実システムからの2つのデータを含む少数のデータセットに適用され、有望な結果を示している。
論文 参考訳(メタデータ) (2020-10-29T08:27:43Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。