論文の概要: Model-free two-step design for improving transient learning performance
in nonlinear optimal regulator problems
- arxiv url: http://arxiv.org/abs/2103.03808v1
- Date: Fri, 5 Mar 2021 17:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 08:11:04.102157
- Title: Model-free two-step design for improving transient learning performance
in nonlinear optimal regulator problems
- Title(参考訳): 非線形最適レギュレータ問題における過渡学習性能向上のためのモデルフリー二段階設計
- Authors: Yuka Masumoto, Yoshihiro Okawa, Tomotake Sasaki, Yutaka Hori
- Abstract要約: 強化学習(rl)は、非線形力学系の最適制御系を設計するためのモデルフリーなアプローチを提供する。
RLの過渡学習性能を改善するためのモデルフリー2段階設計手法を提案する。
- 参考スコア(独自算出の注目度): 1.433758865948252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) provides a model-free approach to designing an
optimal controller for nonlinear dynamical systems. However, the learning
process requires a considerable number of trial-and-error experiments using the
poorly controlled system, and accumulates wear and tear on the plant. Thus, it
is desirable to maintain some degree of control performance during the learning
process. In this paper, we propose a model-free two-step design approach to
improve the transient learning performance of RL in an optimal regulator design
problem for unknown nonlinear systems. Specifically, a linear control law
pre-designed in a model-free manner is used in parallel with online RL to
ensure a certain level of performance at the early stage of learning. Numerical
simulations show that the proposed method improves the transient learning
performance and efficiency in hyperparameter tuning of RL.
- Abstract(参考訳): 強化学習(rl)は、非線形力学系の最適制御系を設計するためのモデルフリーなアプローチを提供する。
しかし、学習プロセスは、制御の不十分なシステムを使用して、かなりの数の試行錯誤実験を必要とし、植物に摩耗と裂傷を蓄積する。
したがって、学習過程においてある程度の制御性能を維持することが望ましい。
本論文では,未知の非線形系の最適レギュレータ設計問題におけるRLの過渡学習性能を改善するためのモデルフリー2ステップ設計手法を提案する。
具体的には、オンラインRLと並行してモデルフリーで事前設計された線形制御法を用いて、学習の初期段階において一定の性能を保証する。
数値シミュレーションにより,rlのハイパーパラメータチューニングにおける過渡学習性能と効率が向上した。
関連論文リスト
- Model-Free Load Frequency Control of Nonlinear Power Systems Based on
Deep Reinforcement Learning [29.643278858113266]
本稿では,Deep Deterministic Policy gradient (DDPG) に基づく非線形電力系統のモデルフリーLFC法を提案する。
制御器は適切な制御動作を生成でき、非線形電力系に対して強い適応性を有する。
論文 参考訳(メタデータ) (2024-03-07T10:06:46Z) - Optimal Exploration for Model-Based RL in Nonlinear Systems [14.540210895533937]
未知の非線形力学系を制御する学習は、強化学習と制御理論の基本的な問題である。
本研究では,タスク依存メトリックにおける不確実性を低減するために,効率よくシステムを探索できるアルゴリズムを開発した。
我々のアルゴリズムは、ポリシー最適化から任意のシステムにおける最適な実験設計への一般的な還元に依存しており、独立した関心を持つ可能性がある。
論文 参考訳(メタデータ) (2023-06-15T15:47:50Z) - Bridging Model-based Safety and Model-free Reinforcement Learning
through System Identification of Low Dimensional Linear Models [16.511440197186918]
モデルベース安全性とモデルフリー強化学習を組み合わせた新しい手法を提案する。
閉ループ系の力学を捉えるためには,低次元の力学モデルが十分であることを示す。
検出された線形モデルは、安全クリティカルな最適制御フレームワークによる保証を提供することができることを示す。
論文 参考訳(メタデータ) (2022-05-11T22:03:18Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Deep Learning Explicit Differentiable Predictive Control Laws for
Buildings [1.4121977037543585]
未知の非線形システムに対する制約付き制御法を学習するための微分予測制御(DPC)手法を提案する。
DPCは、明示的非線形モデル予測制御(MPC)から生じるマルチパラメトリックプログラミング問題に対する近似解を提供する
論文 参考訳(メタデータ) (2021-07-25T16:47:57Z) - Stable Online Control of Linear Time-Varying Systems [49.41696101740271]
COCO-LQは、大規模なLTVシステムの入出力安定性を保証する効率的なオンライン制御アルゴリズムである。
COCO-LQの性能を実証実験とパワーシステム周波数制御の両例で実証した。
論文 参考訳(メタデータ) (2021-04-29T06:18:49Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Reduced-Dimensional Reinforcement Learning Control using Singular
Perturbation Approximations [9.136645265350284]
本稿では,線形時間不変特異摂動(SP)システムに対するモデルフリー,低次元強化学習に基づく最適制御設計を提案する。
まず、未知の状態と入力行列を持つ汎用SPシステムに対して、状態フィードバックと出力フィードバックに基づくRL制御設計を提案する。
両設計をクラスタ化マルチエージェントコンセンサスネットワークに拡張し,SP特性をクラスタリングにより反映する。
論文 参考訳(メタデータ) (2020-04-29T22:15:54Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。