論文の概要: Online Control of Unknown Time-Varying Dynamical Systems
- arxiv url: http://arxiv.org/abs/2202.07890v1
- Date: Wed, 16 Feb 2022 06:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 15:01:28.949621
- Title: Online Control of Unknown Time-Varying Dynamical Systems
- Title(参考訳): 未知時変力学系のオンライン制御
- Authors: Edgar Minasyan, Paula Gradu, Max Simchowitz, Elad Hazan
- Abstract要約: 非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
- 参考スコア(独自算出の注目度): 48.75672260851758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study online control of time-varying linear systems with unknown dynamics
in the nonstochastic control model. At a high level, we demonstrate that this
setting is \emph{qualitatively harder} than that of either unknown
time-invariant or known time-varying dynamics, and complement our negative
results with algorithmic upper bounds in regimes where sublinear regret is
possible. More specifically, we study regret bounds with respect to common
classes of policies: Disturbance Action (SLS), Disturbance Response (Youla),
and linear feedback policies. While these three classes are essentially
equivalent for LTI systems, we demonstrate that these equivalences break down
for time-varying systems.
We prove a lower bound that no algorithm can obtain sublinear regret with
respect to the first two classes unless a certain measure of system variability
also scales sublinearly in the horizon. Furthermore, we show that offline
planning over the state linear feedback policies is NP-hard, suggesting
hardness of the online learning problem.
On the positive side, we give an efficient algorithm that attains a sublinear
regret bound against the class of Disturbance Response policies up to the
aforementioned system variability term. In fact, our algorithm enjoys sublinear
\emph{adaptive} regret bounds, which is a strictly stronger metric than
standard regret and is more appropriate for time-varying systems. We sketch
extensions to Disturbance Action policies and partial observation, and propose
an inefficient algorithm for regret against linear state feedback policies.
- Abstract(参考訳): 非確率制御モデルにおける未知ダイナミクスを持つ時変線形系のオンライン制御について検討した。
高いレベルでは、この設定が未知の時間不変あるいは既知の時間変動力学のそれよりも困難であることが示され、負の結果を線形な後悔が可能である状況におけるアルゴリズム上界で補完する。
より具体的には、一般的な政策のクラスである外乱行動(sls)、外乱応答(youla)、線形フィードバック政策に関する後悔の限界について研究する。
これらの3つのクラスは基本的にLTI系と等価であるが、時間変化系ではこれらの同値性が崩壊することを示す。
系変数の特定の測度が地平線上でサブ線形にスケールしない限り、最初の2つのクラスに対してアルゴリズムがサブ線形後悔を得ることができないことを証明する。
さらに,状態線形フィードバックポリシによるオフライン計画がnpハードであることを示し,オンライン学習問題の難しさを示唆する。
正の面では、上記のシステム変動項まで、外乱応答ポリシーのクラスに拘束されたサブ線形後悔を実現する効率的なアルゴリズムを提供する。
実際、我々のアルゴリズムは、標準的な後悔よりも厳密な測定基準であり、時変システムに適しているsublinear \emph{adaptive} regretboundsを楽しんでいる。
障害行動政策と部分的観察に対する拡張をスケッチし,線形状態フィードバック政策に対する後悔のための非効率的なアルゴリズムを提案する。
関連論文リスト
- Non-asymptotic System Identification for Linear Systems with Nonlinear
Policies [17.420749574975368]
本稿では,一般非線形および/又は時変ポリシーの下での線形系に対する単一軌道系同定問題について考察する。
非線形および/または時間変化のポリシーによってデータ軌跡が生成されるとき、最小二乗推定のために非漸近誤差を与える。
論文 参考訳(メタデータ) (2023-06-17T15:05:59Z) - Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret [61.59646565655169]
我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
論文 参考訳(メタデータ) (2022-11-21T07:29:08Z) - Implications of Regret on Stability of Linear Dynamical Systems [5.6435410094272696]
オンライン学習では、エージェントの判断の質は後悔の概念によって定量化されることが多い。
本研究では, 線形状態フィードバックポリシや線形システムに対して, 線形後悔は時間的変化と時間的不変性の両方において安定性を示すことを示す。
論文 参考訳(メタデータ) (2022-11-14T14:39:22Z) - Regret Analysis of Certainty Equivalence Policies in Continuous-Time
Linear-Quadratic Systems [0.0]
本研究では,線形四元数系の正準モデル制御のためのユビキタス強化学習ポリシーの理論的性能保証について検討する。
我々は、時間的後悔境界の平方根を確立し、ランダム化された確実性等価ポリシーが一つの状態軌跡から高速に最適な制御行動を学ぶことを示す。
論文 参考訳(メタデータ) (2022-06-09T11:47:36Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Adaptive Regret for Control of Time-Varying Dynamics [31.319502238224334]
制御の分野に適応的後悔の尺度を導入する。
私たちの主な貢献は、新しい効率的なメタアルゴリズムです。
主要な技術的革新は、メモリを伴うオンライン凸最適化のより一般的なフレームワークに対する最初の適応的後悔のバウンドである。
論文 参考訳(メタデータ) (2020-07-08T19:40:34Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z) - No-Regret Prediction in Marginally Stable Systems [37.178095559618654]
本稿では,線形力学系におけるオンライン予測の問題点について考察する。
本手法を自己回帰フィルタの学習に適用することにより,部分的に観察された条件下での対数的後悔も達成できる。
論文 参考訳(メタデータ) (2020-02-06T01:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。