論文の概要: Trustworthy AI for Process Automation on a Chylla-Haase Polymerization
Reactor
- arxiv url: http://arxiv.org/abs/2108.13381v1
- Date: Mon, 30 Aug 2021 17:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:50:21.853304
- Title: Trustworthy AI for Process Automation on a Chylla-Haase Polymerization
Reactor
- Title(参考訳): Chylla-Haase 重合反応器によるプロセス自動化のための信頼できるAI
- Authors: Daniel Hein and Daniel Labisch
- Abstract要約: 遺伝的プログラミング強化学習(GPRL)を用いて、Chylla-Haase重合反応器の人為的解釈可能な制御ポリシーを生成する。
これらのポリシーは、複雑さの低いホワイトボックスモデルであり、ターゲット制御システムにおける検証と実装が容易である。
しかし、その複雑さが低いにもかかわらず、自動生成ポリシーは原子炉温度制御の偏差の点で高い性能をもたらす。
- 参考スコア(独自算出の注目度): 0.8528384027684192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, genetic programming reinforcement learning (GPRL) is utilized
to generate human-interpretable control policies for a Chylla-Haase
polymerization reactor. Such continuously stirred tank reactors (CSTRs) with
jacket cooling are widely used in the chemical industry, in the production of
fine chemicals, pigments, polymers, and medical products. Despite appearing
rather simple, controlling CSTRs in real-world applications is quite a
challenging problem to tackle. GPRL utilizes already existing data from the
reactor and generates fully automatically a set of optimized simplistic control
strategies, so-called policies, the domain expert can choose from. Note that
these policies are white-box models of low complexity, which makes them easy to
validate and implement in the target control system, e.g., SIMATIC PCS 7.
However, despite its low complexity the automatically-generated policy yields a
high performance in terms of reactor temperature control deviation, which we
empirically evaluate on the original reactor template.
- Abstract(参考訳): 本稿では,遺伝子プログラミング強化学習(GPRL)を用いて,Chylla-Haase重合反応器の人間解釈制御ポリシを生成する。
化学産業では、化学、顔料、ポリマー、医療製品の製造において、ジャケット冷却による連続的にかき混ぜられたタンクリアクター(CSTR)が広く用いられている。
かなり単純なように見えるが、現実世界のアプリケーションでCSTRを制御することは、非常に難しい問題である。
gprlは、すでに存在するリアクターからのデータを活用し、ドメインエキスパートが選択できるような、最適化された単純化された制御戦略、いわゆるポリシーを自動生成する。
これらのポリシーは、複雑さの低いホワイトボックスモデルであり、ターゲットのコントロールシステム(例えば、simatic pcs 7)で検証および実装が容易である。
しかし, その複雑さが低いにもかかわらず, 自動生成ポリシは反応器温度制御の偏差の点で高い性能を示し, 元の反応器テンプレートを実証的に評価した。
関連論文リスト
- Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Multistep Criticality Search and Power Shaping in Microreactors with Reinforcement Learning [0.3562485774739681]
核マイクロリアクターにおける知的制御のための強化学習(RL)アルゴリズムを導入する。
近位政策最適化(PPO)とアクター・クリティカル(A2C)を用いたRLエージェントの訓練
その結果, 最適ドラム位置同定におけるPPOの優れた性能が示された。
論文 参考訳(メタデータ) (2024-06-22T20:14:56Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [57.70772230913099]
Chemist-Xは、検索増強生成(RAG)技術を用いた化学合成において、反応条件レコメンデーション(RCR)タスクを自動化する。
Chemist-Xはオンラインの分子データベースを尋問し、最新の文献データベースから重要なデータを蒸留する。
Chemist-Xは化学者の作業量を大幅に減らし、より根本的で創造的な問題に集中できるようにする。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z) - Surrogate Empowered Sim2Real Transfer of Deep Reinforcement Learning for
ORC Superheat Control [12.567922037611261]
本稿では,ORCスーパーヒート制御のためのSim2Real転送学習型DRL制御法を提案する。
実験結果から,ORC制御問題におけるDRLのトレーニング速度を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-08-05T01:59:44Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。