論文の概要: Digital Twin Calibration with Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.02205v1
- Date: Sat, 04 Jan 2025 06:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 16:36:50.976945
- Title: Digital Twin Calibration with Model-Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習を用いたディジタル双対校正
- Authors: Hua Zheng, Wei Xie, Ilya O. Ryzhov, Keilung Choy,
- Abstract要約: 本稿では,デジタルツインの校正をモデルベース強化学習に取り入れた,アクタ・シミュレータと呼ばれる新しい方法論フレームワークを提案する。
提案手法はディジタルツインを共同で校正し,最適制御ポリシーを探索し,モデル誤差を考慮・低減する。
この二重成分アプローチは、最適方針に確実に収束し、バイオ医薬品製造領域に基づく広範な数値実験において、既存の手法よりも優れる。
- 参考スコア(独自算出の注目度): 3.0435175689911595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel methodological framework, called the Actor-Simulator, that incorporates the calibration of digital twins into model-based reinforcement learning for more effective control of stochastic systems with complex nonlinear dynamics. Traditional model-based control often relies on restrictive structural assumptions (such as linear state transitions) and fails to account for parameter uncertainty in the model. These issues become particularly critical in industries such as biopharmaceutical manufacturing, where process dynamics are complex and not fully known, and only a limited amount of data is available. Our approach jointly calibrates the digital twin and searches for an optimal control policy, thus accounting for and reducing model error. We balance exploration and exploitation by using policy performance as a guide for data collection. This dual-component approach provably converges to the optimal policy, and outperforms existing methods in extensive numerical experiments based on the biopharmaceutical manufacturing domain.
- Abstract(参考訳): 本稿では,デジタルツインの校正をモデルベース強化学習に組み込んで,複雑な非線形力学を持つ確率系のより効率的な制御を行う,アクタ・シミュレータと呼ばれる新しい方法論フレームワークを提案する。
従来のモデルベースの制御は、しばしば制限的な構造的仮定(線形状態遷移など)に依存し、モデル内のパラメータの不確実性を考慮するのに失敗する。
これらの問題は、プロセスダイナミクスが複雑で完全には知られていない、限られた量のデータしか利用できないバイオ医薬品製造のような産業において特に重要になる。
提案手法はディジタルツインを共同で校正し,最適制御ポリシーを探索し,モデル誤差を考慮・低減する。
データ収集のガイドとしてポリシパフォーマンスを用いて,探索とエクスプロイトのバランスをとる。
この二重成分アプローチは、最適方針に確実に収束し、バイオ医薬品製造領域に基づく広範な数値実験において、既存の手法よりも優れる。
関連論文リスト
- Model-based controller assisted domain randomization in deep reinforcement learning: application to nonlinear powertrain control [0.0]
本研究では, 深部強化学習(DRL)の枠組みを用いた新しいロバスト制御手法を提案する。
問題設定は、不確実性と非線形性を考慮した制御系に対して、バニラMDPの集合である潜在マルコフ決定プロセス(LMDP)を介してモデル化される。
従来のDRLベースの制御と比較して、提案するコントローラ設計はより賢く、高度な一般化能力を実現することができる。
論文 参考訳(メタデータ) (2025-04-28T12:09:07Z) - Differentiable Information Enhanced Model-Based Reinforcement Learning [48.820039382764]
差別化可能な環境は、豊かな差別化可能な情報を提供することで、コントロールポリシーを学習する新たな可能性を秘めている。
モデルベース強化学習(MBRL)法は、基礎となる物理力学を回復するために、識別可能な情報のパワーを効果的に活用する可能性を示す。
しかし,2つの主要な課題は,1)より高精度な動的予測モデルの構築と,2)政策訓練の安定性の向上である。
論文 参考訳(メタデータ) (2025-03-03T04:51:40Z) - Imitation Learning from Observations: An Autoregressive Mixture of Experts Approach [2.4427666827706074]
本稿では,観察から得られた模倣学習の新たなアプローチとして,専門家モデルの自己回帰混合を,その基礎となる方針に適合させる手法を提案する。
提案手法の有効性を,人間の実演から収集した2つの自律走行データセットを用いて検証した。
論文 参考訳(メタデータ) (2024-11-12T22:56:28Z) - Active Learning for Control-Oriented Identification of Nonlinear Systems [26.231260751633307]
本稿では,非線形力学の一般クラスに適した能動学習アルゴリズムの最初の有限サンプル解析について述べる。
ある設定では、アルゴリズムの過剰な制御コストは、対数係数まで、最適な速度を達成する。
我々は,非線形システムの制御におけるアクティブな制御指向探索の利点を示すとともに,シミュレーションにおける我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-04-13T15:40:39Z) - Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated
Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。
ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文 参考訳(メタデータ) (2024-01-09T11:54:54Z) - End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。
エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Enhanced multi-fidelity modelling for digital twin and uncertainty
quantification [0.0]
データ駆動モデルは、リアルタイムのアップデートと予測を可能にするデジタルツインにおいて重要な役割を果たす。
利用可能なデータの忠実さと正確なセンサーデータの不足は、しばしば代理モデルの効率的な学習を妨げる。
本稿では,ロバストなマルチフィデリティ・サロゲートモデルの開発から始まる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-26T05:58:17Z) - Learning-enhanced Nonlinear Model Predictive Control using
Knowledge-based Neural Ordinary Differential Equations and Deep Ensembles [5.650647159993238]
本研究では,知識に基づくニューラル常微分方程式(KNODE)とディープアンサンブルというディープラーニングツールを活用し,モデル予測制御(MPC)の予測精度を向上させる。
特に、KNODEモデルのアンサンブル(KNODEアンサンブル)を学習し、真のシステム力学の正確な予測を得る。
KNODEアンサンブルはより正確な予測を提供し、提案した非線形MPCフレームワークの有効性と閉ループ性能を示す。
論文 参考訳(メタデータ) (2022-11-24T23:51:18Z) - Causal Inference via Nonlinear Variable Decorrelation for Healthcare
Applications [60.26261850082012]
線形および非線形共振の両方を扱う可変デコリレーション正規化器を用いた新しい手法を提案する。
我々は、モデル解釈可能性を高めるために、元の特徴に基づくアソシエーションルールマイニングを用いた新しい表現として、アソシエーションルールを採用する。
論文 参考訳(メタデータ) (2022-09-29T17:44:14Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。