論文の概要: Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization
- arxiv url: http://arxiv.org/abs/2403.14425v1
- Date: Thu, 21 Mar 2024 14:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:59:14.690199
- Title: Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization
- Title(参考訳): 微分可能シミュレーションと最適化によるeNMPCのタスク最適データ駆動サロゲートモデル
- Authors: Daniel Mayfrank, Na Young Ahn, Alexander Mitsos, Manuel Dahmen,
- Abstract要約: 制御における最適性能を実現するために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。
我々は,力学シミュレーションモデルに基づく環境の潜在的な微分可能性を利用した学習アルゴリズムを用いる。
- 参考スコア(独自算出の注目度): 42.72938925647165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for end-to-end learning of Koopman surrogate models for optimal performance in control. In contrast to previous contributions that employ standard reinforcement learning (RL) algorithms, we use a training algorithm that exploits the potential differentiability of environments based on mechanistic simulation models. We evaluate the performance of our method by comparing it to that of other controller type and training algorithm combinations on a literature known eNMPC case study. Our method exhibits superior performance on this problem, thereby constituting a promising avenue towards more capable controllers that employ dynamic surrogate models.
- Abstract(参考訳): 制御における最適性能を実現するために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。
標準強化学習(RL)アルゴリズムを用いた以前のコントリビューションとは対照的に,機械的シミュレーションモデルに基づく環境の潜在的な微分可能性を利用したトレーニングアルゴリズムを用いる。
文献的eNMPCケーススタディにおいて、他のコントローラタイプと比較し、トレーニングアルゴリズムの組み合わせにより、本手法の性能を評価する。
提案手法はこの問題に対して優れた性能を示し,ダイナミックサロゲートモデルを用いたより有能な制御器への道を開く。
関連論文リスト
- How to Fine-tune the Model: Unified Model Shift and Model Bias Policy
Optimization [13.440645736306267]
本稿ではモデルに基づく強化学習のためのアルゴリズムを開発する。
モデルシフトとモデルバイアスを統一し、微調整プロセスを定式化する。
これは、いくつかの挑戦的なベンチマークタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-22T07:27:32Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A Reinforcement Learning-based Economic Model Predictive Control
Framework for Autonomous Operation of Chemical Reactors [0.5735035463793008]
本研究では,非線形系のオンラインモデルパラメータ推定のためのEMPCとRLを統合するための新しいフレームワークを提案する。
最先端のRLアルゴリズムとEMPCスキームを最小限の修正で使用できます。
論文 参考訳(メタデータ) (2021-05-06T13:34:30Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。