Fugu-MT 論文翻訳(概要): Reinforcement Learning of the Prediction Horizon in Model Predictive Control

論文の概要: Reinforcement Learning of the Prediction Horizon in Model Predictive Control

arxiv url: http://arxiv.org/abs/2102.11122v1
Date: Mon, 22 Feb 2021 15:52:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-23 14:32:41.627992
Title: Reinforcement Learning of the Prediction Horizon in Model Predictive Control
Title（参考訳）: モデル予測制御における予測地平線の強化学習
Authors: Eivind B{\o}hn, Sebastien Gros, Signe Moe, Tor Arne Johansen
Abstract要約: 強化学習(RL)を用いた状態関数としての最適予測地平線学習を提案する。本稿では,RL学習問題を定式化して2つの制御タスクでテストする方法を示し,固定地平線MPC方式に対する改善点を示す。
参考スコア（独自算出の注目度）: 1.536989504296526
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model predictive control (MPC) is a powerful trajectory optimization control technique capable of controlling complex nonlinear systems while respecting system constraints and ensuring safe operation. The MPC's capabilities come at the cost of a high online computational complexity, the requirement of an accurate model of the system dynamics, and the necessity of tuning its parameters to the specific control application. The main tunable parameter affecting the computational complexity is the prediction horizon length, controlling how far into the future the MPC predicts the system response and thus evaluates the optimality of its computed trajectory. A longer horizon generally increases the control performance, but requires an increasingly powerful computing platform, excluding certain control applications.The performance sensitivity to the prediction horizon length varies over the state space, and this motivated the adaptive horizon model predictive control (AHMPC), which adapts the prediction horizon according to some criteria. In this paper we propose to learn the optimal prediction horizon as a function of the state using reinforcement learning (RL). We show how the RL learning problem can be formulated and test our method on two control tasks, showing clear improvements over the fixed horizon MPC scheme, while requiring only minutes of learning.
Abstract（参考訳）: モデル予測制御(MPC)は、システムの制約を尊重しつつ複雑な非線形システムを制御し、安全な運転を確保することができる強力な軌道最適化制御技術である。 MPCの能力は、高いオンライン計算の複雑さ、システムのダイナミクスの正確なモデルの要件、および特定の制御アプリケーションにパラメータを調整する必要性のコストが伴います。計算複雑性に影響を与える主な調整可能なパラメータは予測水平長であり、MPCがシステム応答を予測するまでの距離を制御し、計算された軌道の最適性を評価する。より長い地平線は一般に制御性能を向上させるが、特定の制御アプリケーションを除いて、より強力なコンピューティングプラットフォームを必要とし、予測地平線長に対する性能感度は状態空間によって異なるため、いくつかの基準に従って予測地平線を適応する適応地平線モデル予測制御(AHMPC)が動機付けられる。本稿では,強化学習(RL)を用いて状態の関数として最適予測地平線を学習することを提案する。 RL学習の問題をどのように定式化し、2つの制御タスクでテストし、固定地平線MPCスキームよりも明確な改善を示しながら、わずか数分の学習を必要とします。

関連論文リスト

Safe Beyond the Horizon: Efficient Sampling-based MPC with Neural Control Barrier Functions [23.693610702522236]
モデル予測制御(MPC)を実際に使用する場合の一般的な問題は、予測地平線を超えた安全仕様の満足度である。推定最適制御のばらつきを大幅に低減する新しいサンプリング戦略を提案する。結果のNeural Shield-VIMPCコントローラは、既存のサンプリングベースのMPCコントローラと比較して大幅に安全性が向上する。
論文参考訳（メタデータ） (2025-02-20T19:59:11Z)
Latent feedback control of distributed systems in multiple scenarios through deep learning-based reduced order models [3.5161229331588095]
高次元分散システムの継続的な監視とリアルタイム制御は、望まれる物理的な振る舞いを保証するためにアプリケーションに不可欠である。完全順序モデルに依存する従来のフィードバック制御設計は、制御計算の遅延のため、これらの要求を満たすことができない。非線形非侵襲的深層学習に基づく還元順序モデル(DL-ROM)により強化されたリアルタイム閉ループ制御戦略を提案する。
論文参考訳（メタデータ） (2024-12-13T08:04:21Z)
Receding Hamiltonian-Informed Optimal Neural Control and State Estimation for Closed-Loop Dynamical Systems [4.05766189327054]
Hamiltonian-Informed Optimal Neural (Hion) コントローラは、動的システムのためのニューラルネットワークベースの新しいクラスである。ヒオンコントローラは将来の状態を推定し、ポントリャーギンの原理を用いて最適制御入力を計算する。
論文参考訳（メタデータ） (2024-11-02T16:06:29Z)
Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。 PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文参考訳（メタデータ） (2024-08-28T08:35:34Z)
Reinforced Model Predictive Control via Trust-Region Quasi-Newton Policy Optimization [0.0]
超線形収束率を用いた政策最適化のための準ニュートン学習アルゴリズムを提案する。シミュレーション研究は、提案したトレーニングアルゴリズムがデータ効率と精度で他のアルゴリズムより優れていることを示している。
論文参考訳（メタデータ） (2024-05-28T09:16:08Z)
Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文参考訳（メタデータ） (2024-04-08T20:02:19Z)
Reinforcement Learning with Model Predictive Control for Highway Ramp Metering [14.389086937116582]
この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。 RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,オンランプの効率的な制御について検討した。
論文参考訳（メタデータ） (2023-11-15T09:50:54Z)
Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。最適制御には無関係な状態変数を特徴付ける。
論文参考訳（メタデータ） (2021-10-12T16:41:47Z)
Neural Predictive Control for the Optimization of Smart Grid Flexibility Schedules [0.0]
モデル予測制御(MPC)は,格子フレキシビリティの最適スケジューリング問題を数学的に定式化する手法である。 MPC法は時間制約グリッド最適化の正確な結果を約束するが、大規模で複雑な電力系統モデルに必要な計算時間によって本質的に制限される。線形及び非線形電力系統の最適制御ポリシーを模倣により学習するニューラルネットワーク予測制御方式を提案する。
論文参考訳（メタデータ） (2021-08-19T15:12:35Z)
Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文参考訳（メタデータ） (2021-06-22T23:14:21Z)
Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。 AntLer は確率 1 と任意に最適な解を近似することを示す。
論文参考訳（メタデータ） (2020-07-24T07:00:14Z)
Adaptive Control and Regret Minimization in Linear Quadratic Gaussian (LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。 LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文参考訳（メタデータ） (2020-03-12T19:56:38Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。