論文の概要: Two-step reinforcement learning for model-free redesign of nonlinear
optimal regulator
- arxiv url: http://arxiv.org/abs/2103.03808v4
- Date: Thu, 30 Nov 2023 18:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 23:31:46.610507
- Title: Two-step reinforcement learning for model-free redesign of nonlinear
optimal regulator
- Title(参考訳): 非線形最適レギュレータのモデルフリー再設計のための2段階強化学習
- Authors: Mei Minami, Yuka Masumoto, Yoshihiro Okawa, Tomotake Sasaki, Yutaka
Hori
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、非線形力学系のための最適制御系をモデル無しで再設計できる、有望なアプローチの1つである。
未知の非線形システムに対する最適レギュレーション再設計問題において,RLの過渡学習性能を向上させるモデルフリー2段階設計手法を提案する。
- 参考スコア(独自算出の注目度): 1.5624421399300306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many practical control applications, the performance level of a
closed-loop system degrades over time due to the change of plant
characteristics. Thus, there is a strong need for redesigning a controller
without going through the system modeling process, which is often difficult for
closed-loop systems. Reinforcement learning (RL) is one of the promising
approaches that enable model-free redesign of optimal controllers for nonlinear
dynamical systems based only on the measurement of the closed-loop system.
However, the learning process of RL usually requires a considerable number of
trial-and-error experiments using the poorly controlled system that may
accumulate wear on the plant. To overcome this limitation, we propose a
model-free two-step design approach that improves the transient learning
performance of RL in an optimal regulator redesign problem for unknown
nonlinear systems. Specifically, we first design a linear control law that
attains some degree of control performance in a model-free manner, and then,
train the nonlinear optimal control law with online RL by using the designed
linear control law in parallel. We introduce an offline RL algorithm for the
design of the linear control law and theoretically guarantee its convergence to
the LQR controller under mild assumptions. Numerical simulations show that the
proposed approach improves the transient learning performance and efficiency in
hyperparameter tuning of RL.
- Abstract(参考訳): 多くの実用的な制御応用において、クローズドループシステムの性能は植物特性の変化により経時的に低下する。
したがって、システムモデリングプロセスを通過することなくコントローラを再設計する必要性が強く、クローズドループシステムではしばしば困難である。
強化学習(rl)は、閉ループ系の測定のみに基づいた非線形力学系の最適制御系のモデルフリー再設計を可能にする有望なアプローチの一つである。
しかしながら、RLの学習プロセスは通常、植物に摩耗を蓄積する制御の不十分なシステムを用いて、かなりの数の試行錯誤実験を必要とする。
この限界を克服するために,未知非線形システムの最適レギュレータ再設計問題において,rlの過渡学習性能を向上させるモデルフリーな2段階設計手法を提案する。
具体的には,まずモデルフリーである程度の制御性能を達成する線形制御則を設計,次に設計した線形制御則を並行してオンラインrlを用いて非線形最適制御則を訓練する。
線形制御法則の設計のためのオフラインRLアルゴリズムを導入し、理論上は軽微な仮定の下でLQRコントローラへの収束を保証する。
数値シミュレーションにより,提案手法はRLのハイパーパラメータチューニングにおける過渡学習性能と効率を向上させることを示した。
関連論文リスト
- Model-Free Load Frequency Control of Nonlinear Power Systems Based on
Deep Reinforcement Learning [29.643278858113266]
本稿では,Deep Deterministic Policy gradient (DDPG) に基づく非線形電力系統のモデルフリーLFC法を提案する。
制御器は適切な制御動作を生成でき、非線形電力系に対して強い適応性を有する。
論文 参考訳(メタデータ) (2024-03-07T10:06:46Z) - Optimal Exploration for Model-Based RL in Nonlinear Systems [14.540210895533937]
未知の非線形力学系を制御する学習は、強化学習と制御理論の基本的な問題である。
本研究では,タスク依存メトリックにおける不確実性を低減するために,効率よくシステムを探索できるアルゴリズムを開発した。
我々のアルゴリズムは、ポリシー最適化から任意のシステムにおける最適な実験設計への一般的な還元に依存しており、独立した関心を持つ可能性がある。
論文 参考訳(メタデータ) (2023-06-15T15:47:50Z) - Bridging Model-based Safety and Model-free Reinforcement Learning
through System Identification of Low Dimensional Linear Models [16.511440197186918]
モデルベース安全性とモデルフリー強化学習を組み合わせた新しい手法を提案する。
閉ループ系の力学を捉えるためには,低次元の力学モデルが十分であることを示す。
検出された線形モデルは、安全クリティカルな最適制御フレームワークによる保証を提供することができることを示す。
論文 参考訳(メタデータ) (2022-05-11T22:03:18Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Deep Learning Explicit Differentiable Predictive Control Laws for
Buildings [1.4121977037543585]
未知の非線形システムに対する制約付き制御法を学習するための微分予測制御(DPC)手法を提案する。
DPCは、明示的非線形モデル予測制御(MPC)から生じるマルチパラメトリックプログラミング問題に対する近似解を提供する
論文 参考訳(メタデータ) (2021-07-25T16:47:57Z) - Stable Online Control of Linear Time-Varying Systems [49.41696101740271]
COCO-LQは、大規模なLTVシステムの入出力安定性を保証する効率的なオンライン制御アルゴリズムである。
COCO-LQの性能を実証実験とパワーシステム周波数制御の両例で実証した。
論文 参考訳(メタデータ) (2021-04-29T06:18:49Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Reduced-Dimensional Reinforcement Learning Control using Singular
Perturbation Approximations [9.136645265350284]
本稿では,線形時間不変特異摂動(SP)システムに対するモデルフリー,低次元強化学習に基づく最適制御設計を提案する。
まず、未知の状態と入力行列を持つ汎用SPシステムに対して、状態フィードバックと出力フィードバックに基づくRL制御設計を提案する。
両設計をクラスタ化マルチエージェントコンセンサスネットワークに拡張し,SP特性をクラスタリングにより反映する。
論文 参考訳(メタデータ) (2020-04-29T22:15:54Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。