Fugu-MT 論文翻訳(概要): Towards Safe Learning-Based Non-Linear Model Predictive Control through Recurrent Neural Network Modeling

論文の概要: Towards Safe Learning-Based Non-Linear Model Predictive Control through Recurrent Neural Network Modeling

arxiv url: http://arxiv.org/abs/2603.24503v1
Date: Wed, 25 Mar 2026 16:43:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.392633
Title: Towards Safe Learning-Based Non-Linear Model Predictive Control through Recurrent Neural Network Modeling
Title（参考訳）: リカレントニューラルネットワークモデリングによる安全な学習ベース非線形モデル予測制御に向けて
Authors: Mihaela-Larisa Clement, Mónika Farsang, Agnes Poks, Johannes Edelmann, Manfred Plöchl, Radu Grosu, Ezio Bartocci,
Abstract要約: 予測地平線上でパラメータを共有することで,MPC候補制御シーケンスを生成する逐次的ニューラルポリシーであるSequential-AMPCを提案する。いくつかのベンチマークにおける単純なフィードフォワードポリシーベースラインと比較すると、Sequential-AMPCは専門家のMPCロールアウトをかなり少なくし、高い実行可能性率で候補シーケンスを出力し、クローズドループ安全性を改善している。高次元システムでは、フィードフォワードベースラインが停滞する安定した検証改善を維持しながら、より少ないエポックでより優れた学習ダイナミクスと性能を示す。
参考スコア（独自算出の注目度）: 7.815370784443825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The practical deployment of nonlinear model predictive control (NMPC) is often limited by online computation: solving a nonlinear program at high control rates can be expensive on embedded hardware, especially when models are complex or horizons are long. Learning-based NMPC approximations shift this computation offline but typically demand large expert datasets and costly training. We propose Sequential-AMPC, a sequential neural policy that generates MPC candidate control sequences by sharing parameters across the prediction horizon. For deployment, we wrap the policy in a safety-augmented online evaluation and fallback mechanism, yielding Safe Sequential-AMPC. Compared to a naive feedforward policy baseline across several benchmarks, Sequential-AMPC requires substantially fewer expert MPC rollouts and yields candidate sequences with higher feasibility rates and improved closed-loop safety. On high-dimensional systems, it also exhibits better learning dynamics and performance in fewer epochs while maintaining stable validation improvement where the feedforward baseline can stagnate.
Abstract（参考訳）: 非線形プログラムを高い制御率で解くことは、特にモデルが複雑で地平線が長い場合、組込みハードウェア上でコストがかかる。学習ベースのNMPC近似は、この計算をオフラインで切り替えるが、通常、大規模な専門家データセットと高価なトレーニングを必要とする。予測地平線上でパラメータを共有することで,MPC候補制御シーケンスを生成する逐次的ニューラルポリシーであるSequential-AMPCを提案する。デプロイのために、安全強化されたオンライン評価とフォールバックメカニズムでポリシーをラップし、Safe Sequential-AMPCを提供します。いくつかのベンチマークにおける単純なフィードフォワードポリシーベースラインと比較すると、Sequential-AMPCは専門家のMPCロールアウトをかなり少なくし、実行可能性の高い候補シーケンスを出力し、クローズドループ安全性を改善している。高次元システムでは、フィードフォワードベースラインが停滞する安定した検証改善を維持しながら、より少ないエポックでより優れた学習ダイナミクスと性能を示す。

関連論文リスト

Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
Computationally efficient Gauss-Newton reinforcement learning for model predictive control [0.8437187555622164]
本稿では,2次ポリシーデリバティブの必要性を排除した決定主義政策ヘッセンのガウス・ニュートン近似を導入する。非線形連続拌槽リアクターにおけるアプローチの有効性を実証した。
論文参考訳（メタデータ） (2025-08-04T14:00:40Z)
Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。 MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-14T02:31:52Z)
Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文参考訳（メタデータ） (2024-04-08T20:02:19Z)
End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-03T10:21:53Z)
Approximate non-linear model predictive control with safety-augmented neural networks [12.923576972029965]
本稿では、ニューラルネットワーク(NN)によるモデル予測制御(MPC)制御の近似を行い、高速なオンライン評価を実現する。我々は,近似不正確性にもかかわらず,収束性や制約満足度を決定論的に保証する安全性向上を提案する。
論文参考訳（メタデータ） (2023-04-19T11:27:06Z)
Age of Semantics in Cooperative Communications: To Expedite Simulation Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文参考訳（メタデータ） (2022-09-19T11:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。