論文の概要: Learning to Control under Time-Varying Environment
- arxiv url: http://arxiv.org/abs/2206.02507v1
- Date: Mon, 6 Jun 2022 11:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 01:29:48.771589
- Title: Learning to Control under Time-Varying Environment
- Title(参考訳): 時間変化環境下での制御の学習
- Authors: Yuzhen Han, Ruben Solozabal, Jing Dong, Xingyu Zhou, Martin Takac, Bin
Gu
- Abstract要約: 本稿では,線形時間変化(LTV)力学系における後悔の問題について検討する。
提案するオンラインアルゴリズムは, 計算に難易度を保証した最初のオンラインアルゴリズムである。
- 参考スコア(独自算出の注目度): 18.48729114775298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the problem of regret minimization in linear
time-varying (LTV) dynamical systems. Due to the simultaneous presence of
uncertainty and non-stationarity, designing online control algorithms for
unknown LTV systems remains a challenging task. At a cost of NP-hard offline
planning, prior works have introduced online convex optimization algorithms,
although they suffer from nonparametric rate of regret.
In this paper, we propose the first computationally tractable online
algorithm with regret guarantees that avoids offline planning over the state
linear feedback policies. Our algorithm is based on the optimism in the face of
uncertainty (OFU) principle in which we optimistically select the best model in
a high confidence region. Our algorithm is then more explorative when compared
to previous approaches. To overcome non-stationarity, we propose either a
restarting strategy (R-OFU) or a sliding window (SW-OFU) strategy. With proper
configuration, our algorithm is attains sublinear regret $O(T^{2/3})$. These
algorithms utilize data from the current phase for tracking variations on the
system dynamics. We corroborate our theoretical findings with numerical
experiments, which highlight the effectiveness of our methods. To the best of
our knowledge, our study establishes the first model-based online algorithm
with regret guarantees under LTV dynamical systems.
- Abstract(参考訳): 本稿では,線形時変力学系における後悔最小化の問題について検討する。
不確実性と非定常性が同時に存在するため、未知のLTVシステムのオンライン制御アルゴリズムを設計することは難しい課題である。
npハードなオフラインプランニングのコストで、以前の作業ではオンライン凸最適化アルゴリズムが導入されているが、それらは非パラメトリックな後悔の率に苦しんでいる。
本稿では,ステートリニアフィードバックポリシーよりもオフライン計画が避けられることを保証した,最初の計算可能なオンラインアルゴリズムを提案する。
本アルゴリズムは,高信頼領域において最適モデルを楽観的に選択する不確実性(ofu)原理に直面する楽観性に基づいている。
我々のアルゴリズムは、以前のアプローチと比較してより探索的です。
非定常性を克服するために,再起動戦略 (R-OFU) とスライディングウィンドウ戦略 (SW-OFU) を提案する。
適切な構成で、我々のアルゴリズムはサブ線形後悔$O(T^{2/3})$を得る。
これらのアルゴリズムは、システムダイナミクスの変動を追跡するために、現在のフェーズからのデータを利用する。
理論的知見と数値実験を相関させて,本手法の有効性を明らかにする。
最善の知識を得るために,本研究では,ltv力学系において,後悔を保証したモデルベースオンラインアルゴリズムを初めて確立する。
関連論文リスト
- Sublinear Regret for An Actor-Critic Algorithm in Continuous-Time Linear-Quadratic Reinforcement Learning [10.404992912881601]
状態過程のボラティリティが状態変数と制御変数に依存する拡散に対する連続時間線形二乗法(LQ)制御問題のクラスに対する強化学習について検討する。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Smoothed Online Learning for Prediction in Piecewise Affine Systems [43.64498536409903]
本稿では,最近開発されたスムーズなオンライン学習フレームワークに基づく。
これは、断片的なアフィン系における予測とシミュレーションのための最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-01-26T15:54:14Z) - Efficient Online Learning with Memory via Frank-Wolfe Optimization:
Algorithms with Bounded Dynamic Regret and Applications to Control [15.588080817106563]
動的後悔を最小限に抑えるメモリ付きプロジェクションフリーなメタベース学習アルゴリズムを提案する。
私たちは、自律的なエージェントが時間によって変化する環境に適応する必要がある人工知能アプリケーションによって動機付けられています。
論文 参考訳(メタデータ) (2023-01-02T01:12:29Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - An Online Learning Approach to Optimizing Time-Varying Costs of AoI [26.661352924641285]
通信ネットワーク上でのソースのタイムリーな監視を必要とするシステムについて検討する。
単一のソース監視問題に対して、後見の最良の固定ポリシーと比較して、サブ線形後悔を実現するアルゴリズムを設計する。
複数ソーススケジューリング問題に対して、Follow-the-Perturbed-Whittle-Leaderと呼ばれる新しいオンライン学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-05-27T18:10:56Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。