論文の概要: Reliable Offline Model-based Optimization for Industrial Process Control
- arxiv url: http://arxiv.org/abs/2205.07250v1
- Date: Sun, 15 May 2022 10:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 15:06:17.659703
- Title: Reliable Offline Model-based Optimization for Industrial Process Control
- Title(参考訳): 産業プロセス制御のための信頼なオフラインモデルに基づく最適化
- Authors: Cheng Feng, Jinyan Guan
- Abstract要約: 我々は、オフラインモデルに基づく最適化の現在の成功を産業プロセス制御問題に拡張する2つの重要な問題に対処する。
産業シナリオにおける正確な報酬計算を実現するために,条件付き生成逆数ネットワークのアンサンブルに基づく動的モデルを提案する。
- 参考スコア(独自算出の注目度): 3.2996723916635267
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the research area of offline model-based optimization, novel and promising
methods are frequently developed. However, implementing such methods in
real-world industrial systems such as production lines for process control is
oftentimes a frustrating process. In this work, we address two important
problems to extend the current success of offline model-based optimization to
industrial process control problems: 1) how to learn a reliable dynamics model
from offline data for industrial processes? 2) how to learn a reliable but not
over-conservative control policy from offline data by utilizing existing
model-based optimization algorithms? Specifically, we propose a dynamics model
based on ensemble of conditional generative adversarial networks to achieve
accurate reward calculation in industrial scenarios. Furthermore, we propose an
epistemic-uncertainty-penalized reward evaluation function which can
effectively avoid giving over-estimated rewards to out-of-distribution inputs
during the learning/searching of the optimal control policy. We provide
extensive experiments with the proposed method on two representative cases (a
discrete control case and a continuous control case), showing that our method
compares favorably to several baselines in offline policy learning for
industrial process control.
- Abstract(参考訳): オフラインモデルに基づく最適化の研究領域では、新規で有望な手法が頻繁に開発されている。
しかし、プロセス制御のための生産ラインのような実際の産業システムにそのような方法を実装することは、しばしばフラストレーション的なプロセスである。
本稿では、オフラインモデルベース最適化の現在の成功を産業プロセス制御問題に拡張する2つの重要な問題に対処する。
1)産業プロセスのオフラインデータから信頼性のあるダイナミクスモデルを学ぶには?
2)既存のモデルベース最適化アルゴリズムを利用して、オフラインデータから信頼性はあるが過保守な制御ポリシーを学習する方法。
具体的には,産業シナリオにおける報酬計算の精度を高めるために,条件付き生成型逆ネットワークのアンサンブルに基づくダイナミクスモデルを提案する。
さらに,最適制御方針の学習・探索中に,分布外入力に対して過大な報酬を与えることを効果的に回避できる認識的未確認ペナルティー評価関数を提案する。
本手法は,2つの代表的な事例(離散制御ケースと連続制御ケース)について広範な実験を行い,産業プロセス制御のためのオフラインポリシー学習のベースラインと比較した。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Model-based Offline Policy Optimization with Adversarial Network [0.36868085124383626]
本稿では,新たなモデルベースオフラインポリシー最適化フレームワーク(MOAN)を提案する。
主なアイデアは、敵の学習を使って、より良い一般化を伴う遷移モデルを構築することである。
我々の手法は、広く研究されているオフラインRLベンチマークにおいて、最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-05T11:49:33Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Application-Driven Learning: A Closed-Loop Prediction and Optimization
Approach Applied to Dynamic Reserves and Demand Forecasting [62.997667081978825]
我々は、予測と意思決定のプロセスが統合され、協調最適化される新しいクローズドループフレームワークであるアプリケーション駆動学習を提案する。
提案手法は拡張性があり,標準のオープンループ手法よりも一貫して性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-26T02:43:28Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Overcoming Model Bias for Robust Offline Deep Reinforcement Learning [3.1325640909772403]
MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
論文 参考訳(メタデータ) (2020-08-12T19:08:55Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。