Fugu-MT 論文翻訳(概要): Online Policy Gradient for Model Free Learning of Linear Quadratic Regulators with $\sqrt{T}$ Regret

論文の概要: Online Policy Gradient for Model Free Learning of Linear Quadratic Regulators with $\sqrt{T}$ Regret

arxiv url: http://arxiv.org/abs/2102.12608v1
Date: Thu, 25 Feb 2021 00:25:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-26 14:02:37.986693
Title: Online Policy Gradient for Model Free Learning of Linear Quadratic Regulators with $\sqrt{T}$ Regret
Title（参考訳）: 線形二次レギュレータのモデル自由学習のためのオンライン政策勾配 : $\sqrt{t}$ regret
Authors: Asaf Cassel (1), Tomer Koren ((1) School of Computer Science, Tel Aviv University)
Abstract要約: 同様の後悔の保証を実現する最初のモデルフリーアルゴリズムを提案する。本手法は,効率的な政策勾配スキームと,政策空間における探索コストの新しい,より厳密な分析に依拠する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the task of learning to control a linear dynamical system under fixed quadratic costs, known as the Linear Quadratic Regulator (LQR) problem. While model-free approaches are often favorable in practice, thus far only model-based methods, which rely on costly system identification, have been shown to achieve regret that scales with the optimal dependence on the time horizon T. We present the first model-free algorithm that achieves similar regret guarantees. Our method relies on an efficient policy gradient scheme, and a novel and tighter analysis of the cost of exploration in policy space in this setting.
Abstract（参考訳）: 我々は,LQR(Linnar Quadratic Regulator)問題と呼ばれる固定二次コストの下で線形力学系を制御することを学ぶタスクを検討する。モデルフリーな手法は実際は好まれることが多いが、これまでのところ、コストのかかるシステム同定に依存するモデルベース手法のみが、時間的地平線Tに最適な依存度でスケールする後悔を達成することが示されている。本手法は,効率的な政策勾配法と,この設定における政策空間における探索費用の新たな厳密な分析に依拠する。

関連論文リスト

Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds [59.875550175217874]
本稿では,オンラインとオフラインのRL設定において,モデルベース強化学習方式が強い後悔とサンプル境界を実現することを示す。我々のアルゴリズムは単純で、かなり標準的であり、実際にRLの文献で広く研究されている。
論文参考訳（メタデータ） (2024-08-16T19:52:53Z)
Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文参考訳（メタデータ） (2024-07-24T12:26:21Z)
Regret Analysis of Certainty Equivalence Policies in Continuous-Time Linear-Quadratic Systems [0.0]
本研究では,線形四元数系の正準モデル制御のためのユビキタス強化学習ポリシーの理論的性能保証について検討する。我々は、時間的後悔境界の平方根を確立し、ランダム化された確実性等価ポリシーが一つの状態軌跡から高速に最適な制御行動を学ぶことを示す。
論文参考訳（メタデータ） (2022-06-09T11:47:36Z)
Learning to Control under Time-Varying Environment [18.48729114775298]
本稿では,線形時間変化(LTV)力学系における後悔の問題について検討する。提案するオンラインアルゴリズムは, 計算に難易度を保証した最初のオンラインアルゴリズムである。
論文参考訳（メタデータ） (2022-06-06T11:40:46Z)
Safe Adaptive Learning-based Control for Constrained Linear Quadratic Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文参考訳（メタデータ） (2021-10-31T05:52:42Z)
Finite-time System Identification and Adaptive Control in Autoregressive Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文参考訳（メタデータ） (2021-08-26T18:00:00Z)
Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-07T09:45:15Z)
Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文参考訳（メタデータ） (2020-11-20T09:51:49Z)
Reinforcement Learning with Fast Stabilization in Linear Dynamical Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文参考訳（メタデータ） (2020-07-23T23:06:40Z)
Logarithmic Regret Bound in Partially Observable Linear Dynamical Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。 AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文参考訳（メタデータ） (2020-03-25T06:00:33Z)
Adaptive Control and Regret Minimization in Linear Quadratic Gaussian (LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。 LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文参考訳（メタデータ） (2020-03-12T19:56:38Z)
Regret Minimization in Partially Observable Linear Quadratic Control [91.43582419264763]
モデル力学が未知の先行性を持つ場合、部分的に観測可能な線形二次制御系における後悔の問題を考察する。本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。
論文参考訳（メタデータ） (2020-01-31T22:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。