論文の概要: Online Policy Gradient for Model Free Learning of Linear Quadratic
Regulators with $\sqrt{T}$ Regret
- arxiv url: http://arxiv.org/abs/2102.12608v1
- Date: Thu, 25 Feb 2021 00:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 14:02:37.986693
- Title: Online Policy Gradient for Model Free Learning of Linear Quadratic
Regulators with $\sqrt{T}$ Regret
- Title(参考訳): 線形二次レギュレータのモデル自由学習のためのオンライン政策勾配 : $\sqrt{t}$ regret
- Authors: Asaf Cassel (1), Tomer Koren ((1) School of Computer Science, Tel Aviv
University)
- Abstract要約: 同様の後悔の保証を実現する最初のモデルフリーアルゴリズムを提案する。
本手法は,効率的な政策勾配スキームと,政策空間における探索コストの新しい,より厳密な分析に依拠する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of learning to control a linear dynamical system under
fixed quadratic costs, known as the Linear Quadratic Regulator (LQR) problem.
While model-free approaches are often favorable in practice, thus far only
model-based methods, which rely on costly system identification, have been
shown to achieve regret that scales with the optimal dependence on the time
horizon T. We present the first model-free algorithm that achieves similar
regret guarantees. Our method relies on an efficient policy gradient scheme,
and a novel and tighter analysis of the cost of exploration in policy space in
this setting.
- Abstract(参考訳): 我々は,LQR(Linnar Quadratic Regulator)問題と呼ばれる固定二次コストの下で線形力学系を制御することを学ぶタスクを検討する。
モデルフリーな手法は実際は好まれることが多いが、これまでのところ、コストのかかるシステム同定に依存するモデルベース手法のみが、時間的地平線Tに最適な依存度でスケールする後悔を達成することが示されている。
本手法は,効率的な政策勾配法と,この設定における政策空間における探索費用の新たな厳密な分析に依拠する。
関連論文リスト
- Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds [59.875550175217874]
本稿では,オンラインとオフラインのRL設定において,モデルベース強化学習方式が強い後悔とサンプル境界を実現することを示す。
我々のアルゴリズムは単純で、かなり標準的であり、実際にRLの文献で広く研究されている。
論文 参考訳(メタデータ) (2024-08-16T19:52:53Z) - Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Regret Analysis of Certainty Equivalence Policies in Continuous-Time
Linear-Quadratic Systems [0.0]
本研究では,線形四元数系の正準モデル制御のためのユビキタス強化学習ポリシーの理論的性能保証について検討する。
我々は、時間的後悔境界の平方根を確立し、ランダム化された確実性等価ポリシーが一つの状態軌跡から高速に最適な制御行動を学ぶことを示す。
論文 参考訳(メタデータ) (2022-06-09T11:47:36Z) - Learning to Control under Time-Varying Environment [18.48729114775298]
本稿では,線形時間変化(LTV)力学系における後悔の問題について検討する。
提案するオンラインアルゴリズムは, 計算に難易度を保証した最初のオンラインアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-06T11:40:46Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Regret Minimization in Partially Observable Linear Quadratic Control [91.43582419264763]
モデル力学が未知の先行性を持つ場合、部分的に観測可能な線形二次制御系における後悔の問題を考察する。
本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。
論文 参考訳(メタデータ) (2020-01-31T22:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。