論文の概要: Geometric Exploration for Online Control
- arxiv url: http://arxiv.org/abs/2010.13178v2
- Date: Thu, 29 Oct 2020 12:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:30:25.934922
- Title: Geometric Exploration for Online Control
- Title(参考訳): オンライン制御のための幾何学的探索
- Authors: Orestis Plevrakis and Elad Hazan
- Abstract要約: 本研究では,一般的な凸コスト下での線形力学系の制御について検討する。
目的は、障害フィードバックコントローラのクラスに対する後悔を最小限にすることである。
- 参考スコア(独自算出の注目度): 38.87811800375421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the control of an \emph{unknown} linear dynamical system under
general convex costs. The objective is minimizing regret vs. the class of
disturbance-feedback-controllers, which encompasses all stabilizing
linear-dynamical-controllers. In this work, we first consider the case of known
cost functions, for which we design the first polynomial-time algorithm with
$n^3\sqrt{T}$-regret, where $n$ is the dimension of the state plus the
dimension of control input. The $\sqrt{T}$-horizon dependence is optimal, and
improves upon the previous best known bound of $T^{2/3}$. The main component of
our algorithm is a novel geometric exploration strategy: we adaptively
construct a sequence of barycentric spanners in the policy space. Second, we
consider the case of bandit feedback, for which we give the first
polynomial-time algorithm with $poly(n)\sqrt{T}$-regret, building on Stochastic
Bandit Convex Optimization.
- Abstract(参考訳): 一般凸コストの下での線形力学系の制御について検討する。
目的は、全ての安定化線形力学制御器を含む外乱フィードバック制御器のクラスに対する後悔を最小限にすることである。
本研究では,最初に既知のコスト関数の場合について考察し,n^3\sqrt{t}$-regret で最初の多項式時間アルゴリズムを設計し,ここでは$n$ は状態の次元と制御入力の次元である。
$\sqrt{T}$-horizonDependency は最適であり、以前の最もよく知られた$T^{2/3}$の有界を改善する。
当社のアルゴリズムの主な構成要素は,新しい幾何学的探索戦略である。ポリシー空間において,バリュセントリックスパンナーのシーケンスを適応的に構築する。
次に,Stochastic Bandit Convex Optimization を基に構築した $poly(n)\sqrt{T}$-regret を用いた最初の多項式時間アルゴリズムを提案する。
関連論文リスト
- Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。
我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2023-03-05T15:11:14Z) - Corralling a Larger Band of Bandits: A Case Study on Switching Regret
for Linear Bandits [99.86860277006318]
本稿では,一組の逆アルゴリズムを組み合わせ,学習することの問題点について考察する。
Agarwal et al. の CORRAL はこの目標を、$widetildeO(sqrtd S T)$ の残酷なオーバーヘッドで達成している。
この問題に触発されて、後悔のオーバーヘッドが百万ドルにしか依存しない大規模バンディットアルゴリズムのバンドを囲む新しいレシピを提案する。
論文 参考訳(メタデータ) (2022-02-12T21:55:44Z) - Dynamic Regret Minimization for Control of Non-stationary Linear
Dynamical Systems [18.783925692307054]
本稿では,$tildemathcalO(sqrtST)$を最適にリセットするアルゴリズムを提案する。
本アルゴリズムの要点は適応的非定常性検出戦略であり,最近開発されたコンテキスト多重武装バンドイット問題に対するアプローチに基づいている。
論文 参考訳(メタデータ) (2021-11-06T01:30:51Z) - Minimal Expected Regret in Linear Quadratic Control [79.81807680370677]
オンライン学習アルゴリズムを考案し、その期待された後悔を保証します。
当時のこの後悔は、$A$と$B$が未知の場合、$widetildeO((d_u+d_x)sqrtd_xT)$によって上界(i)となる。
論文 参考訳(メタデータ) (2021-09-29T14:07:21Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。