論文の概要: Logarithmic regret for episodic continuous-time linear-quadratic
reinforcement learning over a finite-time horizon
- arxiv url: http://arxiv.org/abs/2006.15316v4
- Date: Fri, 17 Jun 2022 18:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 07:42:37.951858
- Title: Logarithmic regret for episodic continuous-time linear-quadratic
reinforcement learning over a finite-time horizon
- Title(参考訳): 有限時間地平線上のエピソディック連続時間線形-四次強化学習に対する対数的後悔
- Authors: Matteo Basei, Xin Guo, Anran Hu, Yufei Zhang
- Abstract要約: 本研究では, 連続時間線形2次強化学習問題をエピソード環境下で研究する。
連続時間観測と制御に基づく最小二乗アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.123160883637873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study finite-time horizon continuous-time linear-quadratic reinforcement
learning problems in an episodic setting, where both the state and control
coefficients are unknown to the controller. We first propose a least-squares
algorithm based on continuous-time observations and controls, and establish a
logarithmic regret bound of order $O((\ln M)(\ln\ln M))$, with $M$ being the
number of learning episodes. The analysis consists of two parts: perturbation
analysis, which exploits the regularity and robustness of the associated
Riccati differential equation; and parameter estimation error, which relies on
sub-exponential properties of continuous-time least-squares estimators. We
further propose a practically implementable least-squares algorithm based on
discrete-time observations and piecewise constant controls, which achieves
similar logarithmic regret with an additional term depending explicitly on the
time stepsizes used in the algorithm.
- Abstract(参考訳): 有限時間地平線連続時間線形2次強化学習問題を,制御器に状態係数と制御係数が未知なセッティングで検討した。
まず,連続時間観測と制御に基づく最小二乗法を提案し,数列$o((\ln m)(\ln\ln m))$の対数的後悔を定式化し,学習エピソード数を$m$とした。
この分析は、関連するリカティ微分方程式の正則性と堅牢性を利用する摂動解析と、連続時間最小二乗推定器の準指数特性に依存するパラメータ推定誤差の2つの部分からなる。
さらに,離散時間観測と分割定数制御に基づく最小二乗法を実用に実装し,アルゴリズムにおけるステップ化の時間に依存した追加項による類似の対数的後悔を実現する手法を提案する。
関連論文リスト
- Learning Unstable Continuous-Time Stochastic Linear Control Systems [0.0]
有限長状態軌跡に基づく連続時間力学におけるシステム同定の問題について検討する。
適切なランダム化制御入力を用いて不安定なオープンループ行列を推定する手法を提案する。
我々は,推定誤差が軌道長,励起率,信号対雑音比で減衰することを示す理論的性能保証を確立する。
論文 参考訳(メタデータ) (2024-09-17T16:24:51Z) - Graph Spatiotemporal Process for Multivariate Time Series Anomaly
Detection with Missing Values [67.76168547245237]
本稿では,グラフ時間過程と異常スコアラを用いて異常を検出するGST-Proという新しいフレームワークを提案する。
実験結果から,GST-Pro法は時系列データ中の異常を効果的に検出し,最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-11T10:10:16Z) - Square-root regret bounds for continuous-time episodic Markov decision
processes [11.585113506994471]
有限水平エピソード設定における連続時間マルコフ決定過程(MDP)の強化学習について検討した。
本稿では,反復値と高信頼度境界に基づく学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T11:35:07Z) - Semi-supervised Learning of Partial Differential Operators and Dynamical
Flows [68.77595310155365]
本稿では,超ネットワーク解法とフーリエニューラル演算子アーキテクチャを組み合わせた新しい手法を提案する。
本手法は, 1次元, 2次元, 3次元の非線形流体を含む様々な時間発展PDEを用いて実験を行った。
その結果、新しい手法は、監督点の時点における学習精度を向上し、任意の中間時間にその解を補間できることを示した。
論文 参考訳(メタデータ) (2022-07-28T19:59:14Z) - Logarithmic regret bounds for continuous-time average-reward Markov decision processes [9.806527798032809]
無限水平平均回帰設定における連続時間決定過程(MDP)の強化学習について検討する。
我々は、時間的地平線において対数的なインスタンス依存の後悔の下限を導出する。
論文 参考訳(メタデータ) (2022-05-23T10:15:00Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - The Connection between Discrete- and Continuous-Time Descriptions of
Gaussian Continuous Processes [60.35125735474386]
我々は、一貫した推定子をもたらす離散化が粗粒化下での不変性を持つことを示す。
この結果は、導関数再構成のための微分スキームと局所時間推論アプローチの組み合わせが、2次または高次微分方程式の時系列解析に役立たない理由を説明する。
論文 参考訳(メタデータ) (2021-01-16T17:11:02Z) - A Constraint-Based Algorithm for the Structural Learning of
Continuous-Time Bayesian Networks [70.88503833248159]
連続時間ベイズネットワークの構造を学習するための制約に基づく最初のアルゴリズムを提案する。
我々は,条件付き独立性を確立するために提案した,異なる統計的テストと基礎となる仮説について論じる。
論文 参考訳(メタデータ) (2020-07-07T07:34:09Z) - Stochastic Approximation with Markov Noise: Analysis and applications in
reinforcement learning [0.0]
マルコフ雑音によって駆動される2つの時間スケール近似の収束解析を初めて提示する。
両方の時間スケールにおける差分包摂を限定することで、フレームワークの挙動を分析する。
ポリシ評価アルゴリズムの関数近似における最初の情報的誤差境界を求める。
論文 参考訳(メタデータ) (2020-04-08T03:59:21Z) - Efficient improper learning for online logistic regression [68.8204255655161]
サンプル数 n の対数的後悔を持つ任意の正則アルゴリズムは、必然的に B の指数乗法定数を損なうことが知られている。
本研究では、対数的後悔を保ちながら、この指数定数を回避する効率的な不適切なアルゴリズムを設計する。
シュロゲート損失を伴う正規化経験的リスク最小化に基づく新しいアルゴリズムは、O(B log(Bn))として、オーダーO(d2)の1回あたりの時間複雑度で、後悔のスケーリングを満足させる。
論文 参考訳(メタデータ) (2020-03-18T09:16:14Z) - Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem [27.09339991866556]
本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。
我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
論文 参考訳(メタデータ) (2019-12-26T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。