論文の概要: Rate-matching the regret lower-bound in the linear quadratic regulator
with unknown dynamics
- arxiv url: http://arxiv.org/abs/2202.05799v1
- Date: Fri, 11 Feb 2022 17:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 16:34:18.564752
- Title: Rate-matching the regret lower-bound in the linear quadratic regulator
with unknown dynamics
- Title(参考訳): 未知ダイナミクスを持つ線形二次レギュレータにおける後悔値のレートマッチング
- Authors: Feicheng Wang and Lucas Janson
- Abstract要約: 本稿では、O_p(sqrtT,textpolylog(T))$という新しい後悔の上限を確立する。
同時に$O_p(sqrtT,textpolylog(T))$の動的値に縛られる推定誤差を確立する。
- 参考スコア(独自算出の注目度): 6.287145010885044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The theory of reinforcement learning currently suffers from a mismatch
between its empirical performance and the theoretical characterization of its
performance, with consequences for, e.g., the understanding of sample
efficiency, safety, and robustness. The linear quadratic regulator with unknown
dynamics is a fundamental reinforcement learning setting with significant
structure in its dynamics and cost function, yet even in this setting there is
a gap between the best known regret lower-bound of $\Omega_p(\sqrt{T})$ and the
best known upper-bound of $O_p(\sqrt{T}\,\text{polylog}(T))$. The contribution
of this paper is to close that gap by establishing a novel regret upper-bound
of $O_p(\sqrt{T})$. Our proof is constructive in that it analyzes the regret of
a concrete algorithm, and simultaneously establishes an estimation error bound
on the dynamics of $O_p(T^{-1/4})$ which is also the first to match the rate of
a known lower-bound. The two keys to our improved proof technique are (1) a
more precise upper- and lower-bound on the system Gram matrix and (2) a
self-bounding argument for the expected estimation error of the optimal
controller.
- Abstract(参考訳): 現在、強化学習の理論は、その経験的性能と、その性能の理論的特徴とのミスマッチに悩まされており、サンプル効率、安全性、堅牢性の理解などの結果である。
未知のダイナミクスを持つ線形二次的レギュレータは、その力学とコスト関数において重要な構造を持つ基本的な強化学習条件であるが、この設定では、最もよく知られた後悔の低い値である$\Omega_p(\sqrt{T})$と、最も知られている上限である$O_p(\sqrt{T}\,\text{polylog}(T)$との間にギャップがある。
本論文の貢献は, 新たな後悔の上界を$O_p(\sqrt{T})$とすることで, そのギャップを埋めることである。
我々の証明は、具体的なアルゴリズムの後悔を解析し、既知の下界の速度に初めて一致する$O_p(T^{-1/4})$のダイナミックスに束縛された推定誤差を同時に確立するものである。
改良された証明手法の2つの鍵は、(1)システムグラム行列上のより精密な上界と下界、(2)最適制御器の予測推定誤差に対する自己バウンディング引数である。
関連論文リスト
- Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Contextual Dynamic Pricing: Algorithms, Optimality, and Local Differential Privacy Constraints [10.057344315478709]
企業が商品をT$で販売する状況的動的価格問題について検討する。
まず、最適後悔上限は、対数係数まで、次数$sqrtdT$であることを示す。
理論的結果の重要な洞察は、動的価格と文脈的マルチアームバンディット問題との本質的な関係である。
論文 参考訳(メタデータ) (2024-06-04T15:44:10Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - PROMISE: Preconditioned Stochastic Optimization Methods by Incorporating Scalable Curvature Estimates [17.777466668123886]
PROMISE ($textbfPr$econditioned $textbfO$ptimization $textbfM$ethods by $textbfI$ncorporating $textbfS$calable Curvature $textbfE$stimates)はスケッチベースの事前条件勾配アルゴリズムである。
PROMISEには、SVRG、SAGA、およびKatyushaのプレコンディション版が含まれている。
論文 参考訳(メタデータ) (2023-09-05T07:49:10Z) - Provable Robust Saliency-based Explanations [16.217374556142484]
R2ETは, モデル精度を維持しつつ, ステルス攻撃下でのロバスト性が高いことを示す。
ネットワークアーキテクチャとデータモダリティの幅広い実験により、R2ETはモデル精度を維持しながら、ステルス攻撃下でのロバスト性が高い説明が得られることが示された。
論文 参考訳(メタデータ) (2022-12-28T22:05:32Z) - Estimating Principal Components under Adversarial Perturbations [25.778123431786653]
本研究では,高次元統計的推定問題に対するロバストネスの自然なモデルについて検討する。
我々のモデルは、低精度機械学習や対人訓練といった新しいパラダイムによって動機付けられている。
論文 参考訳(メタデータ) (2020-05-31T20:27:19Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。