論文の概要: Optimal Dynamic Regret in LQR Control
- arxiv url: http://arxiv.org/abs/2206.09257v1
- Date: Sat, 18 Jun 2022 18:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 15:22:37.927848
- Title: Optimal Dynamic Regret in LQR Control
- Title(参考訳): lqr制御における最適動的後悔
- Authors: Dheeraj Baby and Yu-Xiang Wang
- Abstract要約: 我々は、LQR制御という2次的損失の連続を伴う非確率的制御の問題を考察する。
我々は、$tildeO(textmaxn1/3 MathcalTV(M_1:n)2/3, 1)$の最適動的(政治的)後悔を実現するオンラインアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 23.91519151164528
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the problem of nonstochastic control with a sequence of quadratic
losses, i.e., LQR control. We provide an efficient online algorithm that
achieves an optimal dynamic (policy) regret of $\tilde{O}(\text{max}\{n^{1/3}
\mathcal{TV}(M_{1:n})^{2/3}, 1\})$, where $\mathcal{TV}(M_{1:n})$ is the total
variation of any oracle sequence of Disturbance Action policies parameterized
by $M_1,...,M_n$ -- chosen in hindsight to cater to unknown nonstationarity.
The rate improves the best known rate of $\tilde{O}(\sqrt{n
(\mathcal{TV}(M_{1:n})+1)} )$ for general convex losses and we prove that it is
information-theoretically optimal for LQR. Main technical components include
the reduction of LQR to online linear regression with delayed feedback due to
Foster and Simchowitz (2020), as well as a new proper learning algorithm with
an optimal $\tilde{O}(n^{1/3})$ dynamic regret on a family of ``minibatched''
quadratic losses, which could be of independent interest.
- Abstract(参考訳): 我々は、LQR制御という2次的損失の連続を伴う非確率的制御の問題を考察する。
我々は,$\tilde{o}(\text{max}\{n^{1/3} \mathcal{tv}(m_{1:n})^{2/3}, 1\})$, ここで$\mathcal{tv}(m_{1:n})$は,$m_1,...,m_n$でパラメータづけされた任意のoracleの妨害行動ポリシーの合計変動である。
このレートは一般的な凸損失に対して最もよく知られた$\tilde{o}(\sqrt{n (\mathcal{tv}(m_{1:n})+1)} の速度を改善する。
主な技術的コンポーネントは、フォスターとシムショヴィッツ(2020年)による遅延フィードバックによるオンライン線形回帰へのlqrの削減と、独立利害である「ミニバッチ」二次損失の族に最適な$\tilde{o}(n^{1/3})$動的後悔を与える新しい適切な学習アルゴリズムである。
関連論文リスト
- Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Efficient Rate Optimal Regret for Adversarial Contextual MDPs Using
Online Function Approximation [47.18926328995424]
我々は,敵対的文脈 MDP における後悔最小化のためのOMG-CMDP!アルゴリズムを提案する。
我々のアルゴリズムは効率的であり(効率的なオンライン回帰オラクルを仮定する)、近似誤差に対して単純で堅牢である。
論文 参考訳(メタデータ) (2023-03-02T18:27:00Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Dynamic Regret Minimization for Control of Non-stationary Linear
Dynamical Systems [18.783925692307054]
本稿では,$tildemathcalO(sqrtST)$を最適にリセットするアルゴリズムを提案する。
本アルゴリズムの要点は適応的非定常性検出戦略であり,最近開発されたコンテキスト多重武装バンドイット問題に対するアプローチに基づいている。
論文 参考訳(メタデータ) (2021-11-06T01:30:51Z) - Optimal Dynamic Regret in Exp-Concave Online Learning [28.62891856368132]
我々は、オンライン学習におけるZinkevich(2003)スタイルの動的後悔最小化の問題を検討する。
不適切な学習が許されるたびに、Strongly Adaptive のオンライン学習者は $tilde O(d3.5n1/3C_n2/3 vee dlog n)$ の動的後悔を達成する。
経路の長さ) 学習者が事前に知ることができない任意のコンパレータのシーケンス。
論文 参考訳(メタデータ) (2021-04-23T21:36:51Z) - Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
我々は,バンディットフィードバックを用いてオンライン学習を学習する。
learnerは、コスト/リワード関数が"pseudo-1d"構造を許可するゼロ次オラクルのみにアクセスできる。
我々は、$T$がラウンドの数である任意のアルゴリズムの後悔のために$min(sqrtdT、T3/4)$の下限を示しています。
ランダム化オンライングラデーション下降とカーネル化指数重み法を組み合わせた新しいアルゴリズムsbcalgを提案し,疑似-1d構造を効果的に活用する。
論文 参考訳(メタデータ) (2021-02-15T08:16:51Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov
Decision Processes [91.38793800392108]
本稿では,マルコフ決定過程(MDP)の遷移確率核が線形混合モデルである線形関数近似による強化学習について検討する。
上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。
論文 参考訳(メタデータ) (2020-12-15T18:56:46Z) - Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation [107.06364966905821]
線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。
我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
論文 参考訳(メタデータ) (2020-07-13T16:30:47Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。