論文の概要: Robust nonlinear set-point control with reinforcement learning
- arxiv url: http://arxiv.org/abs/2304.10277v1
- Date: Thu, 20 Apr 2023 13:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:23:59.012409
- Title: Robust nonlinear set-point control with reinforcement learning
- Title(参考訳): 強化学習によるロバスト非線形集合点制御
- Authors: Ruoqi Zhang, Per Mattsson, Torbj\"orn Wigren
- Abstract要約: 本稿では,高非線形な集合点制御問題においても,3つのアイデアが強化学習法を改善することを主張する。
この主張は、実世界の非線形カスケードタンクプロセスと、シミュレーションされた強い非線形pH制御システムによる実験によって支持されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has recently been an increased interest in reinforcement learning for
nonlinear control problems. However standard reinforcement learning algorithms
can often struggle even on seemingly simple set-point control problems. This
paper argues that three ideas can improve reinforcement learning methods even
for highly nonlinear set-point control problems: 1) Make use of a prior
feedback controller to aid amplitude exploration. 2) Use integrated errors. 3)
Train on model ensembles. Together these ideas lead to more efficient training,
and a trained set-point controller that is more robust to modelling errors and
thus can be directly deployed to real-world nonlinear systems. The claim is
supported by experiments with a real-world nonlinear cascaded tank process and
a simulated strongly nonlinear pH-control system.
- Abstract(参考訳): 近年,非線形制御問題に対する強化学習への関心が高まっている。
しかし、標準的な強化学習アルゴリズムは、一見単純なセットポイント制御問題でもしばしば苦労する。
本稿では,高非線形な集合点制御問題においても,3つのアイデアが強化学習法を改善することを主張する。
1)振幅探査を支援するために先行フィードバックコントローラを使用する。
2) 統合エラーを使用する。
3)モデルアンサンブルでのトレーニング。
これらのアイデアが組み合わさって、より効率的なトレーニングと、エラーのモデル化に堅牢で、現実の非線形システムに直接デプロイできるトレーニングされたセットポイントコントローラが実現される。
この主張は、実世界の非線形カスケードタンクプロセスと、シミュレーションされた強い非線形pH制御システムによって支持される。
関連論文リスト
- Implicit Bias of Policy Gradient in Linear Quadratic Control: Extrapolation to Unseen Initial States [52.56827348431552]
勾配降下はしばしば暗黙のバイアスを示し、目に見えないデータに優れたパフォーマンスをもたらす。
本稿では,初期状態に対する外挿の観点から,政策勾配の暗黙バイアスを理論的に検討する。
論文 参考訳(メタデータ) (2024-02-12T18:41:31Z) - DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control [62.24301794794304]
Deep Adaptive Trajectory Tracking (DATT)は、学習に基づくアプローチであり、現実世界の大きな乱れの存在下で、任意の、潜在的に実現不可能な軌跡を正確に追跡することができる。
DATTは、非定常風場における可溶性および非実用性の両方の軌道に対して、競争適応性非線形およびモデル予測コントローラを著しく上回っている。
適応非線形モデル予測制御ベースラインの1/4未満である3.2ms未満の推論時間で、効率的にオンラインで実行することができる。
論文 参考訳(メタデータ) (2023-10-13T12:22:31Z) - Aiding reinforcement learning for set point control [0.0]
本論文は,簡単な誘導フィードバック制御による強化学習の強化に寄与する。
提案手法をシミュレーションおよび実世界のダブルタンクプロセスで評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2023-04-20T13:12:00Z) - A stabilizing reinforcement learning approach for sampled systems with
partially unknown models [0.0]
純粋オンライン学習環境におけるシステム制御器閉ループの実用的安定性を保証する手法を提案する。
要求された結果を達成するため、我々は古典的な適応制御技術を採用する。
この方法は適応的なトラクション制御とクルーズ制御でテストされ、コストを大幅に削減することが判明した。
論文 参考訳(メタデータ) (2022-08-31T09:20:14Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Deep Koopman Operator with Control for Nonlinear Systems [44.472875714432504]
そこで我々は,Koopman組込み関数とKoopman Operatorを学習するためのエンドツーエンドのディープラーニングフレームワークを提案する。
まず、ニューラルネットワークを用いて埋め込み関数とクープマン演算子をパラメータ化し、Kステップ損失関数でエンドツーエンドに学習する。
次に,制御入力の非線形性をモデル化するために,非線形状態依存制御項を符号化する補助制御ネットワークを設計する。
論文 参考訳(メタデータ) (2022-02-16T11:40:36Z) - Data-Efficient Deep Reinforcement Learning for Attitude Control of
Fixed-Wing UAVs: Field Experiments [0.37798600249187286]
DRLは、元の非線形力学を直接操作する固定翼UAVの姿勢制御をうまく学べることを示す。
我々は,UAVで学習したコントローラを飛行試験で展開し,最先端のArduPlane比例積分微分(PID)姿勢制御と同等の性能を示す。
論文 参考訳(メタデータ) (2021-11-07T19:07:46Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。