Fugu-MT 論文翻訳(概要): Reliable Offline Model-based Optimization for Industrial Process Control

論文の概要: Reliable Offline Model-based Optimization for Industrial Process Control

arxiv url: http://arxiv.org/abs/2205.07250v1
Date: Sun, 15 May 2022 10:27:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-17 15:06:17.659703
Title: Reliable Offline Model-based Optimization for Industrial Process Control
Title（参考訳）: 産業プロセス制御のための信頼なオフラインモデルに基づく最適化
Authors: Cheng Feng, Jinyan Guan
Abstract要約: 我々は、オフラインモデルに基づく最適化の現在の成功を産業プロセス制御問題に拡張する2つの重要な問題に対処する。産業シナリオにおける正確な報酬計算を実現するために,条件付き生成逆数ネットワークのアンサンブルに基づく動的モデルを提案する。
参考スコア（独自算出の注目度）: 3.2996723916635267
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In the research area of offline model-based optimization, novel and promising methods are frequently developed. However, implementing such methods in real-world industrial systems such as production lines for process control is oftentimes a frustrating process. In this work, we address two important problems to extend the current success of offline model-based optimization to industrial process control problems: 1) how to learn a reliable dynamics model from offline data for industrial processes? 2) how to learn a reliable but not over-conservative control policy from offline data by utilizing existing model-based optimization algorithms? Specifically, we propose a dynamics model based on ensemble of conditional generative adversarial networks to achieve accurate reward calculation in industrial scenarios. Furthermore, we propose an epistemic-uncertainty-penalized reward evaluation function which can effectively avoid giving over-estimated rewards to out-of-distribution inputs during the learning/searching of the optimal control policy. We provide extensive experiments with the proposed method on two representative cases (a discrete control case and a continuous control case), showing that our method compares favorably to several baselines in offline policy learning for industrial process control.
Abstract（参考訳）: オフラインモデルに基づく最適化の研究領域では、新規で有望な手法が頻繁に開発されている。しかし、プロセス制御のための生産ラインのような実際の産業システムにそのような方法を実装することは、しばしばフラストレーション的なプロセスである。本稿では、オフラインモデルベース最適化の現在の成功を産業プロセス制御問題に拡張する2つの重要な問題に対処する。 1)産業プロセスのオフラインデータから信頼性のあるダイナミクスモデルを学ぶには? 2)既存のモデルベース最適化アルゴリズムを利用して、オフラインデータから信頼性はあるが過保守な制御ポリシーを学習する方法。具体的には,産業シナリオにおける報酬計算の精度を高めるために,条件付き生成型逆ネットワークのアンサンブルに基づくダイナミクスモデルを提案する。さらに,最適制御方針の学習・探索中に,分布外入力に対して過大な報酬を与えることを効果的に回避できる認識的未確認ペナルティー評価関数を提案する。本手法は,2つの代表的な事例(離散制御ケースと連続制御ケース)について広範な実験を行い,産業プロセス制御のためのオフラインポリシー学習のベースラインと比較した。

関連論文リスト

Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Digital Twin Calibration with Model-Based Reinforcement Learning [3.0435175689911595]
本稿では,デジタルツインの校正をモデルベース強化学習に取り入れた,アクタ・シミュレータと呼ばれる新しい方法論フレームワークを提案する。提案手法はディジタルツインを共同で校正し,最適制御ポリシーを探索し,モデル誤差を考慮・低減する。この二重成分アプローチは、最適方針に確実に収束し、バイオ医薬品製造領域に基づく広範な数値実験において、既存の手法よりも優れる。
論文参考訳（メタデータ） (2025-01-04T06:15:28Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
A Cost-Sensitive Transformer Model for Prognostics Under Highly Imbalanced Industrial Data [1.6492989697868894]
本稿では,体系的なワークフローの一部として開発された新しいコスト感応型トランスフォーマーモデルを提案する。その結果,最先端手法と比較して性能が大幅に向上した。本研究は, 産業環境における故障予測の独特な課題に対処する上での本手法の可能性を明らかにするものである。
論文参考訳（メタデータ） (2024-01-16T15:09:53Z)
MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文参考訳（メタデータ） (2024-01-06T21:04:31Z)
Model-based Offline Policy Optimization with Adversarial Network [0.36868085124383626]
本稿では,新たなモデルベースオフラインポリシー最適化フレームワーク(MOAN)を提案する。主なアイデアは、敵の学習を使って、より良い一般化を伴う遷移モデルを構築することである。我々の手法は、広く研究されているオフラインRLベンチマークにおいて、最先端のベースラインよりも優れている。
論文参考訳（メタデータ） (2023-09-05T11:49:33Z)
Resiliency Analysis of LLM generated models for Industrial Automation [0.7018015405843725]
本稿では,Large Language Models (LLMs) を用いた自動生成産業自動化・制御システムのレジリエンスと効率性について検討する。本研究の目的は、産業自動化・制御における自動生成システムの有効性と信頼性に関する洞察を提供することと、その設計・実装改善の可能性を明らかにすることである。
論文参考訳（メタデータ） (2023-08-23T13:35:36Z)
Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文参考訳（メタデータ） (2021-11-29T06:29:49Z)
Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文参考訳（メタデータ） (2021-05-17T08:36:18Z)
A Reinforcement Learning-based Economic Model Predictive Control Framework for Autonomous Operation of Chemical Reactors [0.5735035463793008]
本研究では,非線形系のオンラインモデルパラメータ推定のためのEMPCとRLを統合するための新しいフレームワークを提案する。最先端のRLアルゴリズムとEMPCスキームを最小限の修正で使用できます。
論文参考訳（メタデータ） (2021-05-06T13:34:30Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。 DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。 MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文参考訳（メタデータ） (2020-04-21T20:00:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。