論文の概要: Reinforcement Learning-based Control via Y-wise Affine Neural Networks: Comparative Case Studies for Chemical Processes
- arxiv url: http://arxiv.org/abs/2605.21211v1
- Date: Wed, 20 May 2026 14:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.712292
- Title: Reinforcement Learning-based Control via Y-wise Affine Neural Networks: Comparative Case Studies for Chemical Processes
- Title(参考訳): Y-wise Affine Neural Networksによる強化学習に基づく制御:化学プロセスの比較ケーススタディ
- Authors: Austin Braniff, Yuhe Tian,
- Abstract要約: ケミカルプロセスシステムにおける強化学習(RL)に基づく制御の効率よく実装可能なアプローチを提案する。
我々は、Y-wise Affine Neural Network (YANN)-RLと呼ばれるRLアルゴリズムのクラスを利用する。
アクターと批評家のネットワークを戦略的に初期化することにより、YANN-RLアルゴリズムは制御スキーム内の確実かつ解釈可能な出発点を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work we present an efficient and practically implementable approach for the application of reinforcement learning (RL)-based control in chemical process systems. This is an area that has yet to widely adopt RL-based control largely due to inherent challenges in trusting RL algorithms and the time-consuming process of training reliable agents. To address these challenges, we leverage a class of RL algorithms termed Y-wise Affine Neural Network (YANN)- RL, which we have developed in our prior work (Braniff and Tian, 2025a). By strategically initializing actor and critic networks YANN-RL algorithms provide confident and interpretable starting points within control schemes. We apply this RL-based control approach to three different process engineering case studies publicly available on the PC-Gym library (Bloor et al., 2026): (i) a continuous stirred tank reactor (CSTR), (ii) a four-tank system, and (iii) a multistage extraction column. Our approach is compared to several popular RL algorithms (PPO, SAC, DDPG, and TD3) and is benchmarked against nonlinear model predictive control (NMPC). These case studies demonstrate that YANN-RL can greatly reduce the training time and data needed, can be deployed with confidence for chemical process systems, and can approach the performance of NMPC without the knowledge of a full nonlinear model.
- Abstract(参考訳): 本研究では, 化学プロセスシステムにおける強化学習(RL)に基づく制御の適用のための, 効率的かつ実用的に実現可能なアプローチを提案する。
この領域は、RLアルゴリズムの信頼性と信頼性エージェントのトレーニングに要する時間的かかるプロセスが原因で、RLベースの制御を広く採用していない。
これらの課題に対処するために、我々はY-wise Affine Neural Network (YANN)- RLと呼ばれるRLアルゴリズムのクラスを活用し、これまでの研究(Braniff and Tian, 2025a)で開発した。
アクターと批評家のネットワークを戦略的に初期化することにより、YANN-RLアルゴリズムは制御スキーム内の確実かつ解釈可能な出発点を提供する。
このRLに基づく制御アプローチを,PC-Gymライブラリ上で公開されている3つのプロセスエンジニアリングケーススタディに適用する(Bloor et al , 2026)。
(i)CSTR(Continuous stired tank reactor)
(二)四段式、及び
(三)多段抽出塔。
提案手法はいくつかのRLアルゴリズム (PPO, SAC, DDPG, TD3) と比較し, 非線形モデル予測制御 (NMPC) に対してベンチマークを行う。
これらのケーススタディでは、YANN-RLは、必要なトレーニング時間とデータを大幅に削減でき、化学プロセスシステムに自信を持ってデプロイでき、完全な非線形モデルを知らずにNMPCの性能にアプローチできることを示した。
関連論文リスト
- RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning [63.432969627395686]
RefineRLは、競合するプログラミング問題に対して、大規模言語モデルの自己精製能力を解き放つために設計された新しいアプローチである。
Skeptical-Agentは、CP問題の公開テストケースに対して生成されたソリューションを検証するためのローカル実行ツールを備えた反復的な自己修復エージェントである。
強化学習ソリューションは、標準RLVRデータのみを用いてLLMを自己精製にインセンティブを与える。
論文 参考訳(メタデータ) (2026-04-01T11:54:57Z) - Statistical and Algorithmic Foundations of Reinforcement Learning [45.707617428078585]
近年,シーケンシャルラーニング (RL) が注目されている。
我々は、RLにおけるいくつかの重要な発展を紹介することを目指しており、新しいアイデアと古典的なトピックの関連を強調している。
論文 参考訳(メタデータ) (2025-07-19T02:42:41Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。
本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。
我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文 参考訳(メタデータ) (2025-05-28T20:59:22Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - DRL-based Slice Placement Under Non-Stationary Conditions [0.8459686722437155]
我々は,非定常プロセスに従ってスライス要求が到着するという仮定の下で,最適ネットワークスライス配置のためのオンライン学習を検討する。
具体的には、2つの純DRLアルゴリズムと2つのハイブリッドDRLヒューリスティックアルゴリズムを提案する。
提案したハイブリッドDRLヒューリスティックアルゴリズムは、収束を達成するために、純DRLよりも少ない3桁の学習エピソードを必要とすることを示す。
論文 参考訳(メタデータ) (2021-08-05T10:05:12Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。