論文の概要: Computationally efficient Gauss-Newton reinforcement learning for model predictive control
- arxiv url: http://arxiv.org/abs/2508.02441v1
- Date: Mon, 04 Aug 2025 14:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.370107
- Title: Computationally efficient Gauss-Newton reinforcement learning for model predictive control
- Title(参考訳): モデル予測制御のための計算効率の良いガウス・ニュートン強化学習
- Authors: Dean Brandner, Sebastien Gros, Sergio Lucia,
- Abstract要約: 本稿では,2次ポリシーデリバティブの必要性を排除した決定主義政策ヘッセンのガウス・ニュートン近似を導入する。
非線形連続拌槽リアクターにおけるアプローチの有効性を実証した。
- 参考スコア(独自算出の注目度): 0.8437187555622164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model predictive control (MPC) is widely used in process control due to its interpretability and ability to handle constraints. As a parametric policy in reinforcement learning (RL), MPC offers strong initial performance and low data requirements compared to black-box policies like neural networks. However, most RL methods rely on first-order updates, which scale well to large parameter spaces but converge at most linearly, making them inefficient when each policy update requires solving an optimal control problem, as is the case with MPC. While MPC policies are typically sparsely parameterized and thus amenable to second-order approaches, existing second-order methods demand second-order policy derivatives, which can be computationally and memory-wise intractable. This work introduces a Gauss-Newton approximation of the deterministic policy Hessian that eliminates the need for second-order policy derivatives, enabling superlinear convergence with minimal computational overhead. To further improve robustness, we propose a momentum-based Hessian averaging scheme for stable training under noisy estimates. We demonstrate the effectiveness of the approach on a nonlinear continuously stirred tank reactor (CSTR), showing faster convergence and improved data efficiency over state-of-the-art first-order methods.
- Abstract(参考訳): モデル予測制御(MPC)は、その解釈可能性と制約を扱う能力のために、プロセス制御に広く使われている。
強化学習(RL)のパラメトリックポリシとして、MPCはニューラルネットワークのようなブラックボックスポリシと比較して、強力な初期パフォーマンスと低データ要求を提供する。
しかし、ほとんどのRL法は、大きなパラメータ空間によくスケールするが、最も線形に収束する1次更新に依存しており、MPCの場合のように、各ポリシー更新が最適制御問題を解く必要がある場合、効率が悪くなる。
MPCポリシーは通常、疎パラメータ化され、従って2階法に順応するが、既存の2階法では2階法の導出を必要としており、計算的にもメモリ的にも難解である。
この研究は、二階ポリシー微分の必要性を排除し、計算オーバーヘッドを最小限に抑えた超線型収束を可能にする決定論的ポリシー・ヘッセンのガウス・ニュートン近似を導入する。
さらに頑健性を向上させるため,雑音推定に基づく安定トレーニングのための運動量に基づくヘッセン平均化手法を提案する。
本研究では, 非線形連続拌槽型原子炉 (CSTR) へのアプローチの有効性を実証し, より高速な収束と, 最先端の1次法よりもデータ効率の向上を図った。
関連論文リスト
- Neural Policy Iteration for Stochastic Optimal Control: A Physics-Informed Approach [2.8988658640181826]
物理インフォームドニューラルネットワークポリシー反復フレームワーク(PINN-PI)を提案する。
各イテレーションにおいて、ニューラルネットワークは、固定ポリシーによって誘導される線形PDEの残余を最小限にして、値関数を近似するように訓練される。
提案手法は,最大10次元の勾配カートポール,振り子高次元線形二次規則(LQR)問題など,いくつかのベンチマーク問題に対する有効性を示す。
論文 参考訳(メタデータ) (2025-08-03T11:02:25Z) - Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。
標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。
MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-14T02:31:52Z) - Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。
本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-25T13:39:45Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Reinforced Model Predictive Control via Trust-Region Quasi-Newton Policy Optimization [0.0]
超線形収束率を用いた政策最適化のための準ニュートン学習アルゴリズムを提案する。
シミュレーション研究は、提案したトレーニングアルゴリズムがデータ効率と精度で他のアルゴリズムより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T09:16:08Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Recurrent Model Predictive Control [19.047059454849897]
一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。
提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
論文 参考訳(メタデータ) (2021-02-23T15:01:36Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。