論文の概要: An Efficient Off-Policy Reinforcement Learning Algorithm for the
Continuous-Time LQR Problem
- arxiv url: http://arxiv.org/abs/2303.17819v1
- Date: Fri, 31 Mar 2023 06:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 15:09:12.862299
- Title: An Efficient Off-Policy Reinforcement Learning Algorithm for the
Continuous-Time LQR Problem
- Title(参考訳): 連続時間LQR問題に対する効率的なオフポリティ強化学習アルゴリズム
- Authors: Victor G. Lopez and Matthias A. M\"uller
- Abstract要約: システムから測定した入力状態データのみを用いて,リアルタイムLQR問題を解決するために,非政治強化学習アルゴリズムが設計された。
この持続的に励起されたデータを用いて、我々のアルゴリズムにおける行列方程式の解は存在し、各反復において一意であることを保証する。
- 参考スコア(独自算出の注目度): 2.512827436728378
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, an off-policy reinforcement learning algorithm is designed to
solve the continuous-time LQR problem using only input-state data measured from
the system. Different from other algorithms in the literature, we propose the
use of a specific persistently exciting input as the exploration signal during
the data collection step. We then show that, using this persistently excited
data, the solution of the matrix equation in our algorithm is guaranteed to
exist and to be unique at every iteration. Convergence of the algorithm to the
optimal control input is also proven. Moreover, we formulate the policy
evaluation step as the solution of a Sylvester-transpose equation, which
increases the efficiency of its solution. Finally, a method to determine a
stabilizing policy to initialize the algorithm using only measured data is
proposed.
- Abstract(参考訳): 本稿では,システムから測定した入力状態データのみを用いて,連続時間lqr問題を解決するためのオフポリシー強化学習アルゴリズムを提案する。
文献中の他のアルゴリズムと異なり,データ収集ステップ中に探索信号として,特定の持続的にエキサイティングな入力を使用することを提案する。
そして、この持続的に励起されたデータを用いて、我々のアルゴリズムにおける行列方程式の解は存在し、各反復において一意であることを保証する。
最適制御入力に対するアルゴリズムの収束性も証明されている。
さらに,シルベスター変換方程式の解として政策評価ステップを定式化し,その解の効率を高める。
最後に,測定データのみを用いてアルゴリズムを初期化するための安定化ポリシーを決定する手法を提案する。
関連論文リスト
- Learning Sparse Graphs via Majorization-Minimization for Smooth Node
Signals [8.140698535149042]
本稿では,その隣接行列を推定することにより,スパース重み付きグラフを学習するアルゴリズムを提案する。
提案アルゴリズムは,本論文におけるいくつかの既存手法よりも,平均反復回数の観点から,より高速に収束することを示す。
論文 参考訳(メタデータ) (2022-02-06T17:06:13Z) - A Data-Driven Line Search Rule for Support Recovery in High-dimensional
Data Analysis [5.180648702293017]
適切なステップサイズを適応的に決定する新しい,効率的なデータ駆動行探索法を提案する。
線形回帰問題とロジスティック回帰問題における最先端アルゴリズムとの比較は,提案アルゴリズムの安定性,有効性,優越性を示す。
論文 参考訳(メタデータ) (2021-11-21T12:18:18Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Reinforcement Learning for Adaptive Optimal Stationary Control of Linear
Stochastic Systems [15.410124023805249]
本稿では,加法雑音と乗法雑音を併用した連続時間線形系の最適定常制御について検討する。
楽観的な最小二乗法に基づく反復法則という,非政治強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-16T09:27:02Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Model-free optimal control of discrete-time systems with additive and
multiplicative noises [1.656520517245166]
本稿では,加法的および乗法的雑音を受ける離散時間系のクラスに対する最適制御問題について検討する。
システム状態と入力のデータを用いて最適許容制御ポリシーを学習するために,モデルフリー強化学習アルゴリズムを提案する。
学習アルゴリズムは最適許容制御ポリシーに収束することが証明された。
論文 参考訳(メタデータ) (2020-08-20T02:18:00Z) - Initializing Successive Linear Programming Solver for ACOPF using
Machine Learning [0.0]
本稿では,SLP-ACOPFソルバを初期化するために,Scikit-Learnライブラリで利用可能な機械学習(ML)アルゴリズムについて検討する。
我々は,各機械学習アルゴリズムの品質評価を行い,電力流解に必要な変数を予測する。
このアプローチは、混雑している3つのバスシステムでテストされる。
論文 参考訳(メタデータ) (2020-07-17T20:01:55Z) - Run2Survive: A Decision-theoretic Approach to Algorithm Selection based
on Survival Analysis [75.64261155172856]
生存分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズムランタイムの分散モデルを学習するためにそのようなデータを使用する適切な方法を提供する。
我々は、アルゴリズム選択に対する洗練された決定論的アプローチの基礎として、そのようなモデルを活用し、Run2Surviveを疑う。
標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-07-06T15:20:17Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。