論文の概要: Regret Analysis of Certainty Equivalence Policies in Continuous-Time
Linear-Quadratic Systems
- arxiv url: http://arxiv.org/abs/2206.04434v1
- Date: Thu, 9 Jun 2022 11:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 21:40:34.294543
- Title: Regret Analysis of Certainty Equivalence Policies in Continuous-Time
Linear-Quadratic Systems
- Title(参考訳): 連続時間線形二次系における確実性同値政策の後悔解析
- Authors: Mohamad Kazem Shirani Faradonbeh
- Abstract要約: 本研究では,線形四元数系の正準モデル制御のためのユビキタス強化学習ポリシーの理論的性能保証について検討する。
我々は、時間的後悔境界の平方根を確立し、ランダム化された確実性等価ポリシーが一つの状態軌跡から高速に最適な制御行動を学ぶことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work studies theoretical performance guarantees of a ubiquitous
reinforcement learning policy for controlling the canonical model of stochastic
linear-quadratic system. We show that randomized certainty equivalent policy
addresses the exploration-exploitation dilemma for minimizing quadratic costs
in linear dynamical systems that evolve according to stochastic differential
equations. More precisely, we establish square-root of time regret bounds,
indicating that randomized certainty equivalent policy learns optimal control
actions fast from a single state trajectory. Further, linear scaling of the
regret with the number of parameters is shown. The presented analysis
introduces novel and useful technical approaches, and sheds light on
fundamental challenges of continuous-time reinforcement learning.
- Abstract(参考訳): 本研究は,確率線形-四次系の正準モデルを制御するためのユビキタス強化学習政策の理論的性能を保証する。
確率的微分方程式に従って発展する線形力学系における二次コストを最小化するための探索-展開ジレンマにランダム化確実性等価性が対応していることを示す。
より正確には、時間的後悔境界の平方根を確立し、ランダム化された確実性等価ポリシーが単一状態軌道から最適な制御動作を高速に学習することを示す。
さらに,パラメータ数による後悔の線形スケーリングを示す。
提案する分析は,新しい,有用な技術アプローチを導入し,連続時間強化学習の基本的な課題を浮き彫りにする。
関連論文リスト
- Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Non-asymptotic System Identification for Linear Systems with Nonlinear
Policies [17.420749574975368]
本稿では,一般非線形および/又は時変ポリシーの下での線形系に対する単一軌道系同定問題について考察する。
非線形および/または時間変化のポリシーによってデータ軌跡が生成されるとき、最小二乗推定のために非漸近誤差を与える。
論文 参考訳(メタデータ) (2023-06-17T15:05:59Z) - A New Approach to Learning Linear Dynamical Systems [19.47235707806519]
本稿では,線形力学系を時間軌道からシステムパラメータの誤差まで,初めて学習するアルゴリズムを提案する。
本アルゴリズムはモーメント推定器を用いて,動的に抽出できるパラメータを直接推定する。
論文 参考訳(メタデータ) (2023-01-23T16:07:57Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - Time varying regression with hidden linear dynamics [74.9914602730208]
線形力学系に従って未知のパラメータが進化することを前提とした時間変化線形回帰モデルを再検討する。
反対に、基礎となる力学が安定である場合、このモデルのパラメータは2つの通常の最小二乗推定と組み合わせることで、データから推定できることが示される。
論文 参考訳(メタデータ) (2021-12-29T23:37:06Z) - Structure-Preserving Learning Using Gaussian Processes and Variational
Integrators [62.31425348954686]
本稿では,機械系の古典力学に対する変分積分器と,ガウス過程の回帰による残留力学の学習の組み合わせを提案する。
我々は、既知のキネマティック制約を持つシステムへのアプローチを拡張し、予測の不確実性に関する公式な境界を提供する。
論文 参考訳(メタデータ) (2021-12-10T11:09:29Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - Online Policy Gradient for Model Free Learning of Linear Quadratic
Regulators with $\sqrt{T}$ Regret [0.0]
同様の後悔の保証を実現する最初のモデルフリーアルゴリズムを提案する。
本手法は,効率的な政策勾配スキームと,政策空間における探索コストの新しい,より厳密な分析に依拠する。
論文 参考訳(メタデータ) (2021-02-25T00:25:41Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。