論文の概要: Recurrent Model Predictive Control
- arxiv url: http://arxiv.org/abs/2102.11736v1
- Date: Tue, 23 Feb 2021 15:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 04:51:09.337524
- Title: Recurrent Model Predictive Control
- Title(参考訳): 繰り返しモデル予測制御
- Authors: Zhengyu Liu, Jingliang Duan, Wenxuan Wang, Shengbo Eben Li, Yuming
Yin, Ziyu Lin, Qi Sun, Bo Cheng
- Abstract要約: 一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。
提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
- 参考スコア(独自算出の注目度): 19.047059454849897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes an off-line algorithm, called Recurrent Model Predictive
Control (RMPC), to solve general nonlinear finite-horizon optimal control
problems. Unlike traditional Model Predictive Control (MPC) algorithms, it can
make full use of the current computing resources and adaptively select the
longest model prediction horizon. Our algorithm employs a recurrent function to
approximate the optimal policy, which maps the system states and reference
values directly to the control inputs. The number of prediction steps is equal
to the number of recurrent cycles of the learned policy function. With an
arbitrary initial policy function, the proposed RMPC algorithm can converge to
the optimal policy by directly minimizing the designed loss function. We
further prove the convergence and optimality of the RMPC algorithm thorough
Bellman optimality principle, and demonstrate its generality and efficiency
using two numerical examples.
- Abstract(参考訳): 本稿では,非線形有限ホライゾン最適制御問題を解くために,リカレントモデル予測制御(rmpc)と呼ばれるオフラインアルゴリズムを提案する。
従来のモデル予測制御(MPC)アルゴリズムとは異なり、現在のコンピューティングリソースをフル活用し、最長モデル予測水平線を適応的に選択することができる。
提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
予測ステップの数は、学習されたポリシー関数の繰り返しサイクルの数に等しい。
任意の初期ポリシー関数により、提案したRMPCアルゴリズムは、設計された損失関数を直接最小化し、最適ポリシーに収束することができる。
rmpcアルゴリズムの完全ベルマン最適原理の収束と最適性をさらに証明し、2つの数値例を用いてその一般化と効率を示す。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Neural Predictive Control for the Optimization of Smart Grid Flexibility
Schedules [0.0]
モデル予測制御(MPC)は,格子フレキシビリティの最適スケジューリング問題を数学的に定式化する手法である。
MPC法は時間制約グリッド最適化の正確な結果を約束するが、大規模で複雑な電力系統モデルに必要な計算時間によって本質的に制限される。
線形及び非線形電力系統の最適制御ポリシーを模倣により学習するニューラルネットワーク予測制御方式を提案する。
論文 参考訳(メタデータ) (2021-08-19T15:12:35Z) - Reinforcement Learning for Adaptive Optimal Stationary Control of Linear
Stochastic Systems [15.410124023805249]
本稿では,加法雑音と乗法雑音を併用した連続時間線形系の最適定常制御について検討する。
楽観的な最小二乗法に基づく反復法則という,非政治強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-16T09:27:02Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Approximate Midpoint Policy Iteration for Linear Quadratic Control [1.0312968200748118]
モデルベースおよびモデルフリー設定の線形2次最適制御問題を解くために,中間点ポリシー反復アルゴリズムを提案する。
モデルに基づく設定では,2次収束と線形収束を両立させる標準方針反復法やポリシーアルゴリズムよりも優れている立方収束を実現する。
論文 参考訳(メタデータ) (2020-11-28T20:22:10Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Model-free optimal control of discrete-time systems with additive and
multiplicative noises [1.656520517245166]
本稿では,加法的および乗法的雑音を受ける離散時間系のクラスに対する最適制御問題について検討する。
システム状態と入力のデータを用いて最適許容制御ポリシーを学習するために,モデルフリー強化学習アルゴリズムを提案する。
学習アルゴリズムは最適許容制御ポリシーに収束することが証明された。
論文 参考訳(メタデータ) (2020-08-20T02:18:00Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。