論文の概要: Model-free optimal control of discrete-time systems with additive and
multiplicative noises
- arxiv url: http://arxiv.org/abs/2008.08734v1
- Date: Thu, 20 Aug 2020 02:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 03:22:36.621320
- Title: Model-free optimal control of discrete-time systems with additive and
multiplicative noises
- Title(参考訳): 加法・乗法雑音をもつ離散時間系のモデルフリー最適制御
- Authors: Jing Lai, Junlin Xiong, Zhan Shu
- Abstract要約: 本稿では,加法的および乗法的雑音を受ける離散時間系のクラスに対する最適制御問題について検討する。
システム状態と入力のデータを用いて最適許容制御ポリシーを学習するために,モデルフリー強化学習アルゴリズムを提案する。
学習アルゴリズムは最適許容制御ポリシーに収束することが証明された。
- 参考スコア(独自算出の注目度): 1.656520517245166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the optimal control problem for a class of
discrete-time stochastic systems subject to additive and multiplicative noises.
A stochastic Lyapunov equation and a stochastic algebra Riccati equation are
established for the existence of the optimal admissible control policy. A
model-free reinforcement learning algorithm is proposed to learn the optimal
admissible control policy using the data of the system states and inputs
without requiring any knowledge of the system matrices. It is proven that the
learning algorithm converges to the optimal admissible control policy. The
implementation of the model-free algorithm is based on batch least squares and
numerical average. The proposed algorithm is illustrated through a numerical
example, which shows our algorithm outperforms other policy iteration
algorithms.
- Abstract(参考訳): 本稿では,加法および乗法雑音を考慮した離散時間確率系の最適制御問題について検討する。
最適許容制御ポリシの存在に対して、確率的リャプノフ方程式と確率的代数的リッキ方程式が確立される。
システム状態と入力のデータを用いて最適許容制御ポリシーを学習するために,システム行列の知識を必要とせずにモデルフリー強化学習アルゴリズムを提案する。
学習アルゴリズムが最適許容制御方針に収束することが証明されている。
モデルフリーアルゴリズムの実装は、バッチ最小二乗と数値平均に基づいている。
提案手法は,提案手法が他のポリシー反復アルゴリズムよりも優れていることを示す数値例を用いて示す。
関連論文リスト
- Data-Driven H-infinity Control with a Real-Time and Efficient
Reinforcement Learning Algorithm: An Application to Autonomous
Mobility-on-Demand Systems [3.5897534810405403]
本稿では,線形離散時間系のH$_infty$制御を解くために,モデルフリー,リアルタイム,データ効率のQ-ラーニングに基づくアルゴリズムを提案する。
適応最適制御器を設計し、システムダイナミクスの知識を必要とせず、アクションと批評家ネットワークのパラメータをオンラインで学習する。
論文 参考訳(メタデータ) (2023-09-16T05:02:41Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Imitation Learning of Stabilizing Policies for Nonlinear Systems [1.52292571922932]
線形システムやコントローラ向けに開発された手法は,平方の和を用いて容易にコントローラに拡張できることが示されている。
予測勾配降下法とアルゴリズムの交互方向法を, 安定化模倣学習問題に対して提案する。
論文 参考訳(メタデータ) (2021-09-22T17:27:19Z) - Reinforcement Learning for Adaptive Optimal Stationary Control of Linear
Stochastic Systems [15.410124023805249]
本稿では,加法雑音と乗法雑音を併用した連続時間線形系の最適定常制御について検討する。
楽観的な最小二乗法に基づく反復法則という,非政治強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-16T09:27:02Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Recurrent Model Predictive Control [19.047059454849897]
一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。
提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
論文 参考訳(メタデータ) (2021-02-23T15:01:36Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Average Cost Optimal Control of Stochastic Systems Using Reinforcement
Learning [0.19036571490366497]
本稿では,Q関数のカーネル行列を推定するオンライン学習手法を提案する。
得られた制御ゲインとカーネルマトリックスは最適に収束することが証明された。
論文 参考訳(メタデータ) (2020-10-13T08:51:06Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。