論文の概要: Data-Driven Adversarial Online Control for Unknown Linear Systems
- arxiv url: http://arxiv.org/abs/2308.08138v2
- Date: Sat, 9 Mar 2024 04:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-13 16:38:28.901042
- Title: Data-Driven Adversarial Online Control for Unknown Linear Systems
- Title(参考訳): 未知線形システムのデータ駆動逆オンライン制御
- Authors: Zishun Liu and Yongxin Chen
- Abstract要約: このオンライン制御問題に対処する新しいデータ駆動型オンライン適応制御アルゴリズムを提案する。
我々のアルゴリズムは、高い確率で有界な$tmO(T2/3)の後悔勾配を保証し、この問題の最もよく知られた後悔勾配と一致する。
- 参考スコア(独自算出の注目度): 17.595231077524467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the online control problem with an unknown linear dynamical
system in the presence of adversarial perturbations and adversarial convex loss
functions. Although the problem is widely studied in model-based control, it
remains unclear whether data-driven approaches, which bypass the system
identification step, can solve the problem. In this work, we present a novel
data-driven online adaptive control algorithm to address this online control
problem. Our algorithm leverages the behavioral systems theory to learn a
non-parametric system representation and then adopts a perturbation-based
controller updated by online gradient descent. We prove that our algorithm
guarantees an $\tmO(T^{2/3})$ regret bound with high probability, which matches
the best-known regret bound for this problem. Furthermore, we extend our
algorithm and performance guarantee to the cases with output feedback.
- Abstract(参考訳): 本稿では, 対向摂動と対向凸損失関数の存在下で, 未知の線形力学系のオンライン制御問題を考察する。
この問題はモデルベースの制御で広く研究されているが、システム識別ステップをバイパスするデータ駆動アプローチがこの問題を解決できるかどうかは不明である。
本研究では,このオンライン制御問題に対処する新しいデータ駆動型オンライン適応制御アルゴリズムを提案する。
本アルゴリズムは行動システム理論を利用して非パラメトリックシステム表現を学習し,オンライン勾配降下によって更新される摂動ベースのコントローラを採用する。
我々は,このアルゴリズムが高い確率に縛られた$\tmO(T^{2/3})の後悔を保証することを証明した。
さらに,出力フィードバックのあるケースに対して,アルゴリズムと性能保証を拡張した。
関連論文リスト
- Data-Guided Regulator for Adaptive Nonlinear Control [0.27195102129094995]
本稿では,複雑な非線形システムに対するデータ駆動型フィードバックコントローラの問題に対処する。
目標は、直接的なポリシー更新を通じて、システム状態の有限時間規制を達成することである。
論文 参考訳(メタデータ) (2023-11-20T23:02:39Z) - Learning to Control under Time-Varying Environment [18.48729114775298]
本稿では,線形時間変化(LTV)力学系における後悔の問題について検討する。
提案するオンラインアルゴリズムは, 計算に難易度を保証した最初のオンラインアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-06T11:40:46Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Non-Episodic Learning for Online LQR of Unknown Linear Gaussian System [0.0]
単一の軌道からシステムに関する知識を得るオンライン非分離アルゴリズムを提案する。
識別と制御のほぼ確実に収束する割合を特徴付け、探索と搾取の間の最適なトレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-03-24T15:51:28Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Non-Stochastic Control with Bandit Feedback [30.33117611898598]
未知あるいは未知のシステムに対して,効率的なサブ線形後悔アルゴリズムを提案する。
アルゴリズムの主な難しさは、過去の制御への損失の依存である。
本稿では,メモリを有する損失関数に対して,バンド凸最適化の一般設定のための効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-12T18:40:00Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。