論文の概要: Average Cost Optimal Control of Stochastic Systems Using Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.06236v1
- Date: Tue, 13 Oct 2020 08:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 00:58:37.239610
- Title: Average Cost Optimal Control of Stochastic Systems Using Reinforcement
Learning
- Title(参考訳): 強化学習を用いた確率システムの平均コスト最適制御
- Authors: Jing Lai and Junlin Xiong
- Abstract要約: 本稿では,Q関数のカーネル行列を推定するオンライン学習手法を提案する。
得られた制御ゲインとカーネルマトリックスは最適に収束することが証明された。
- 参考スコア(独自算出の注目度): 0.19036571490366497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the average cost minimization problem for discrete-time
systems with multiplicative and additive noises via reinforcement learning. By
using Q-function, we propose an online learning scheme to estimate the kernel
matrix of Q-function and to update the control gain using the data along the
system trajectories. The obtained control gain and kernel matrix are proved to
converge to the optimal ones. To implement the proposed learning scheme, an
online model-free reinforcement learning algorithm is given, where recursive
least squares method is used to estimate the kernel matrix of Q-function. A
numerical example is presented to illustrate the proposed approach.
- Abstract(参考訳): 本稿では,増補学習による乗算および加算雑音を伴う離散時間系における平均コスト最小化問題に対処する。
そこで本稿では,Q-関数を用いてQ-関数のカーネル行列を推定し,システムトラジェクトリに沿ったデータを用いて制御ゲインを更新するオンライン学習手法を提案する。
得られた制御ゲインとカーネルマトリックスは最適に収束することが証明された。
提案手法を実装するために,Q関数のカーネル行列を推定するために最小二乗再帰法を用いるオンラインモデルフリー強化学習アルゴリズムを提案する。
提案手法を説明するために数値的な例を示す。
関連論文リスト
- Integrating Reinforcement Learning and Model Predictive Control with Applications to Microgrids [14.389086937116582]
本研究では,強化学習とモデル予測制御(MPC)を統合し,混合力学系における最適制御問題の解法を提案する。
提案手法は, MPC手法のオンライン計算時間を著しく短縮し, 最適性ギャップが小さく, 実現可能性が高いポリシーを生成する。
論文 参考訳(メタデータ) (2024-09-17T15:17:16Z) - Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文 参考訳(メタデータ) (2023-10-10T17:06:41Z) - Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。
大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文 参考訳(メタデータ) (2023-10-09T14:30:06Z) - Data-Driven H-infinity Control with a Real-Time and Efficient
Reinforcement Learning Algorithm: An Application to Autonomous
Mobility-on-Demand Systems [3.5897534810405403]
本稿では,線形離散時間系のH$_infty$制御を解くために,モデルフリー,リアルタイム,データ効率のQ-ラーニングに基づくアルゴリズムを提案する。
適応最適制御器を設計し、システムダイナミクスの知識を必要とせず、アクションと批評家ネットワークのパラメータをオンラインで学習する。
論文 参考訳(メタデータ) (2023-09-16T05:02:41Z) - Computationally Efficient Data-Driven Discovery and Linear
Representation of Nonlinear Systems For Control [0.0]
この研究は、制御のための非線形システムのシステム同定と線形化のためのクープマン作用素理論を用いたデータ駆動型フレームワークの開発に焦点をあてる。
提案手法は, オートエンコーダのベースラインよりも効率よく, 精度が高いことを示す。
論文 参考訳(メタデータ) (2023-09-08T02:19:14Z) - Deep Unrolling for Nonconvex Robust Principal Component Analysis [75.32013242448151]
我々はロバスト成分分析のためのアルゴリズムを設計する(A)
行列を低主行列とスパース主行列の和に分解する。
論文 参考訳(メタデータ) (2023-07-12T03:48:26Z) - Imitation Learning of Stabilizing Policies for Nonlinear Systems [1.52292571922932]
線形システムやコントローラ向けに開発された手法は,平方の和を用いて容易にコントローラに拡張できることが示されている。
予測勾配降下法とアルゴリズムの交互方向法を, 安定化模倣学習問題に対して提案する。
論文 参考訳(メタデータ) (2021-09-22T17:27:19Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Model-free optimal control of discrete-time systems with additive and
multiplicative noises [1.656520517245166]
本稿では,加法的および乗法的雑音を受ける離散時間系のクラスに対する最適制御問題について検討する。
システム状態と入力のデータを用いて最適許容制御ポリシーを学習するために,モデルフリー強化学習アルゴリズムを提案する。
学習アルゴリズムは最適許容制御ポリシーに収束することが証明された。
論文 参考訳(メタデータ) (2020-08-20T02:18:00Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。