論文の概要: Optimal Rates for Bandit Nonstochastic Control
- arxiv url: http://arxiv.org/abs/2305.15352v2
- Date: Sun, 1 Oct 2023 19:40:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 17:34:23.865994
- Title: Optimal Rates for Bandit Nonstochastic Control
- Title(参考訳): バンディット非確率制御の最適速度
- Authors: Y. Jennifer Sun, Stephen Newman, Elad Hazan
- Abstract要約: 既知システムと未知システムの両方に対して最適な後悔(対数要因まで)を達成できる帯域幅LQRとLQGのアルゴリズムを提案する。
提案手法の中心的な構成要素は,メモリを用いたバンドベックス最適化のための新しい手法であり,これは独立した関心事である。
- 参考スコア(独自算出の注目度): 18.47192040293437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear Quadratic Regulator (LQR) and Linear Quadratic Gaussian (LQG) control
are foundational and extensively researched problems in optimal control. We
investigate LQR and LQG problems with semi-adversarial perturbations and
time-varying adversarial bandit loss functions. The best-known sublinear regret
algorithm of~\cite{gradu2020non} has a $T^{\frac{3}{4}}$ time horizon
dependence, and its authors posed an open question about whether a tight rate
of $\sqrt{T}$ could be achieved. We answer in the affirmative, giving an
algorithm for bandit LQR and LQG which attains optimal regret (up to
logarithmic factors) for both known and unknown systems. A central component of
our method is a new scheme for bandit convex optimization with memory, which is
of independent interest.
- Abstract(参考訳): LQR(Linear Quadratic Regulator)とLQG(Linear Quadratic Gaussian)の制御は、最適制御における基礎的かつ広範囲に研究された問題である。
半対向摂動と時変対向帯域損失関数のLQRおよびLQG問題について検討した。
最もよく知られている半線形後悔アルゴリズムは$t^{\frac{3}{4}}$の時間軸依存性を持ち、著者らは$\sqrt{t}$のタイトなレートが達成できるかどうかという疑問を投げかけた。
我々は、既知のシステムと未知のシステムの両方において、最適な後悔(対数的要因まで)を達成するLQRとLQGのアルゴリズムを与える。
提案手法の中心的なコンポーネントは,メモリを用いたバンドット凸最適化のための新しいスキームである。
関連論文リスト
- Tight Rates for Bandit Control Beyond Quadratics [2.961909021941052]
目的を達成するアルゴリズムを開発する。
tildeO(T)$ は帯域非確率な滑らかな摂動関数に対する最適制御である。
私たちの主な貢献は、目的を達成するアルゴリズムです。
tildeO(T)$はメモリなしでBandit Convex(BCO)の最適制御である。
論文 参考訳(メタデータ) (2024-10-01T18:35:08Z) - Dynamic Regret Minimization for Control of Non-stationary Linear
Dynamical Systems [18.783925692307054]
本稿では,$tildemathcalO(sqrtST)$を最適にリセットするアルゴリズムを提案する。
本アルゴリズムの要点は適応的非定常性検出戦略であり,最近開発されたコンテキスト多重武装バンドイット問題に対するアプローチに基づいている。
論文 参考訳(メタデータ) (2021-11-06T01:30:51Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation [107.06364966905821]
線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。
我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
論文 参考訳(メタデータ) (2020-07-13T16:30:47Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。