論文の概要: Adaptive Regret for Control of Time-Varying Dynamics
- arxiv url: http://arxiv.org/abs/2007.04393v3
- Date: Sat, 12 Feb 2022 01:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 12:57:50.314185
- Title: Adaptive Regret for Control of Time-Varying Dynamics
- Title(参考訳): 時変ダイナミクスの制御に対する適応的後悔
- Authors: Paula Gradu, Elad Hazan, Edgar Minasyan
- Abstract要約: 制御の分野に適応的後悔の尺度を導入する。
私たちの主な貢献は、新しい効率的なメタアルゴリズムです。
主要な技術的革新は、メモリを伴うオンライン凸最適化のより一般的なフレームワークに対する最初の適応的後悔のバウンドである。
- 参考スコア(独自算出の注目度): 31.319502238224334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of online control of systems with time-varying linear
dynamics. This is a general formulation that is motivated by the use of local
linearization in control of nonlinear dynamical systems. To state meaningful
guarantees over changing environments, we introduce the metric of {\it adaptive
regret} to the field of control. This metric, originally studied in online
learning, measures performance in terms of regret against the best policy in
hindsight on {\it any interval in time}, and thus captures the adaptation of
the controller to changing dynamics.
Our main contribution is a novel efficient meta-algorithm: it converts a
controller with sublinear regret bounds into one with sublinear {\it adaptive
regret} bounds in the setting of time-varying linear dynamical systems. The
main technical innovation is the first adaptive regret bound for the more
general framework of online convex optimization with memory. Furthermore, we
give a lower bound showing that our attained adaptive regret bound is nearly
tight for this general framework.
- Abstract(参考訳): 時変線形ダイナミクスを用いたシステムのオンライン制御の問題を考える。
これは、非線形力学系の制御における局所線形化の使用によって動機付けられた一般的な定式化である。
変化する環境に対して有意義な保証を述べるため、制御分野に「it適応後悔」の指標を導入する。
この計量は、もともとオンライン学習で研究され、後見の最良の政策に対する後悔の観点でパフォーマンスを測定し、コントローラの動的変化への適応を捉える。
我々の主な貢献は、新しい効率的なメタアルゴリズムであり、時変線形力学系の設定において、sublinear regret bounds を持つコントローラを sublinear {\it adaptive regret} 境界を持つコントローラに変換する。
技術的な革新は、オンライン凸最適化とメモリのより一般的なフレームワークに対する最初の適応的後悔である。
さらに、我々の達成した適応的後悔境界が、この一般的な枠組みに対してほぼ緊密であることを示す下限を示す。
関連論文リスト
- Adaptive Online Non-stochastic Control [10.25772015681554]
我々は,制御環境の難易度に比例した政策後悔のアルゴリズムを得る目的で,非確率制御(NSC)の問題に取り組む。
FTRL(Follow The Regularized Leader)フレームワークを、実際に目撃されたコストに比例した正規化子を使用することで、動的システムに調整します。
論文 参考訳(メタデータ) (2023-10-02T12:32:24Z) - On Controller Tuning with Time-Varying Bayesian Optimization [74.57758188038375]
制御対象とその変更に関する適切な事前知識を用いて、時間変化最適化(TVBO)を用いて、変更環境におけるコントローラのオンラインチューニングを行う。
本研究では,不確実性注入(UI)を用いたTVBO戦略を提案する。
我々のモデルはTVBOの最先端手法よりも優れており、後悔の軽減と不安定なパラメータ構成の低減を実現している。
論文 参考訳(メタデータ) (2022-07-22T14:54:13Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Minimizing Dynamic Regret and Adaptive Regret Simultaneously [60.17824125301273]
動的後悔と適応的後悔を同時に最小化できる新しいオンラインアルゴリズムを提案する。
我々の理論的保証は、あるアルゴリズムが任意の間隔で動的後悔を最小化できるという意味でさらに強い。
論文 参考訳(メタデータ) (2020-02-06T03:32:37Z) - Implicit Regularization and Momentum Algorithms in Nonlinearly
Parameterized Adaptive Control and Prediction [13.860437051795419]
我々は,古典的適応非線形制御技術と最近の機械学習の進歩との間に強いつながりを生かしている。
適応的非線形制御と適応的ダイナミクス予測の両方において,アルゴリズム開発には未発達の可能性があることが示されている。
論文 参考訳(メタデータ) (2019-12-31T03:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。