論文の概要: Logarithmic Regret for Adversarial Online Control
- arxiv url: http://arxiv.org/abs/2003.00189v3
- Date: Tue, 23 Jun 2020 08:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:24:41.665566
- Title: Logarithmic Regret for Adversarial Online Control
- Title(参考訳): 対数レグレットによる対数オンライン制御
- Authors: Dylan J. Foster and Max Simchowitz
- Abstract要約: 対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
- 参考スコア(独自算出の注目度): 56.12283443161479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new algorithm for online linear-quadratic control in a known
system subject to adversarial disturbances. Existing regret bounds for this
setting scale as $\sqrt{T}$ unless strong stochastic assumptions are imposed on
the disturbance process. We give the first algorithm with logarithmic regret
for arbitrary adversarial disturbance sequences, provided the state and control
costs are given by known quadratic functions. Our algorithm and analysis use a
characterization for the optimal offline control law to reduce the online
control problem to (delayed) online learning with approximate advantage
functions. Compared to previous techniques, our approach does not need to
control movement costs for the iterates, leading to logarithmic regret.
- Abstract(参考訳): 本稿では,オンライン線形四元数制御のための新しいアルゴリズムを提案する。
この設定スケールの既存の後悔境界を$\sqrt{T}$とすると、外乱過程に強い確率的仮定が課される。
状態と制御コストが既知の二次関数によって与えられる場合,任意の逆乱列に対して対数的後悔を伴う最初のアルゴリズムを与える。
我々のアルゴリズムと分析では、オンライン制御問題を近似的優位関数で(遅延)オンライン学習に還元するために、最適オフライン制御法の特徴を用いる。
従来の手法と比較して,本手法は反復の移動コストを制御する必要はなく,対数的後悔につながる。
関連論文リスト
- Regret Analysis of Policy Optimization over Submanifolds for Linearly
Constrained Online LQG [12.201535821920624]
制御器に与えられた線形制約を持つオンライン線形二次ガウス問題について検討する。
関数列の第1次および第2次情報に対する予測に基づいてオンラインコントローラを提供するオンライン楽観的ニュートン(OONM)を提案する。
論文 参考訳(メタデータ) (2024-03-13T14:06:18Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Data-Driven Adversarial Online Control for Unknown Linear Systems [17.595231077524467]
このオンライン制御問題に対処する新しいデータ駆動型オンライン適応制御アルゴリズムを提案する。
我々のアルゴリズムは、高い確率で有界な$tmO(T2/3)の後悔勾配を保証し、この問題の最もよく知られた後悔勾配と一致する。
論文 参考訳(メタデータ) (2023-08-16T04:05:22Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Strongly Adaptive OCO with Memory [49.319621885036035]
本稿では,メモリを用いたオンライン学習のための適応型アルゴリズムを提案する。
このアルゴリズムは,線形時間変化システムの制御に強い適応性を持つリセットバウンドをもたらす。
論文 参考訳(メタデータ) (2021-02-02T17:26:08Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。