論文の概要: Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization
- arxiv url: http://arxiv.org/abs/2403.14425v2
- Date: Fri, 11 Oct 2024 15:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:28:03.959949
- Title: Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization
- Title(参考訳): 微分可能シミュレーションと最適化によるeNMPCのタスク最適データ駆動サロゲートモデル
- Authors: Daniel Mayfrank, Na Young Ahn, Alexander Mitsos, Manuel Dahmen,
- Abstract要約: 特定の制御タスクにおいて最適な性能を示すために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。
我々は,政策最適化を支援するために,力学シミュレーションモデルに基づく環境の潜在的な微分可能性を利用する訓練アルゴリズムを用いる。
- 参考スコア(独自算出の注目度): 42.72938925647165
- License:
- Abstract: We present a method for end-to-end learning of Koopman surrogate models for optimal performance in a specific control task. In contrast to previous contributions that employ standard reinforcement learning (RL) algorithms, we use a training algorithm that exploits the potential differentiability of environments based on mechanistic simulation models to aid the policy optimization. We evaluate the performance of our method by comparing it to that of other controller type and training algorithm combinations on an existing economic nonlinear model predictive control (eNMPC) case study of a continuous stirred-tank reactor (CSTR) model. Compared to the benchmark methods, our method produces similar economic performance but causes considerably fewer and less severe constraint violations. Thus, for this case study, our method outperforms the others and offers a promising path toward more performant controllers that employ dynamic surrogate models.
- Abstract(参考訳): 特定の制御タスクにおいて最適な性能を示すために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。
標準強化学習(RL)アルゴリズムを用いた以前のコントリビューションとは対照的に,メカニスティックシミュレーションモデルに基づく環境の潜在的な差別化性を利用した学習アルゴリズムを用いて,政策最適化を支援する。
本研究では, 既存の経済非線形モデル予測制御(eNMPC)モデルを用いて, 他の制御系との比較と, 学習アルゴリズムの組み合わせによる評価を行った。
ベンチマーク手法と比較して,本手法は類似の経済性能を示すが,厳密な制約違反は少なく,少ない。
このケーススタディでは,本手法は他の手法よりも優れており,動的サロゲートモデルを用いたより高性能なコントローラへの道のりが期待できる。
関連論文リスト
- How to Fine-tune the Model: Unified Model Shift and Model Bias Policy
Optimization [13.440645736306267]
本稿ではモデルに基づく強化学習のためのアルゴリズムを開発する。
モデルシフトとモデルバイアスを統一し、微調整プロセスを定式化する。
これは、いくつかの挑戦的なベンチマークタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-22T07:27:32Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A Reinforcement Learning-based Economic Model Predictive Control
Framework for Autonomous Operation of Chemical Reactors [0.5735035463793008]
本研究では,非線形系のオンラインモデルパラメータ推定のためのEMPCとRLを統合するための新しいフレームワークを提案する。
最先端のRLアルゴリズムとEMPCスキームを最小限の修正で使用できます。
論文 参考訳(メタデータ) (2021-05-06T13:34:30Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。