論文の概要: HOFLON: Hybrid Offline Learning and Online Optimization for Process Start-Up and Grade-Transition Control
- arxiv url: http://arxiv.org/abs/2510.03830v1
- Date: Sat, 04 Oct 2025 15:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.283236
- Title: HOFLON: Hybrid Offline Learning and Online Optimization for Process Start-Up and Grade-Transition Control
- Title(参考訳): HOFLON: プロセス起動とグレード遷移制御のためのハイブリッドオフライン学習とオンライン最適化
- Authors: Alex Durkin, Jasper Stolte, Mehmet Mercangöz,
- Abstract要約: 本稿では、オフラインとオンラインのハイブリッド強化学習アルゴリズムHOFLONを紹介する。
HOFLONは, 重合反応器の起動と紙-機械のグレード・チェンジ問題という2つの産業ケーススタディで試験を行った。
どちらの植物でもHOFLONはIQLを超えるだけでなく、歴史的データに見られる最高のスタートアップやグレード・チェンジよりも平均的な累積的な報酬を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Start-ups and product grade-changes are critical steps in continuous-process plant operation, because any misstep immediately affects product quality and drives operational losses. These transitions have long relied on manual operation by a handful of expert operators, but the progressive retirement of that workforce is leaving plant owners without the tacit know-how needed to execute them consistently. In the absence of a process model, offline reinforcement learning (RL) promises to capture and even surpass human expertise by mining historical start-up and grade-change logs, yet standard offline RL struggles with distribution shift and value-overestimation whenever a learned policy ventures outside the data envelope. We introduce HOFLON (Hybrid Offline Learning + Online Optimization) to overcome those limitations. Offline, HOFLON learns (i) a latent data manifold that represents the feasible region spanned by past transitions and (ii) a long-horizon Q-critic that predicts the cumulative reward from state-action pairs. Online, it solves a one-step optimization problem that maximizes the Q-critic while penalizing deviations from the learned manifold and excessive rates of change in the manipulated variables. We test HOFLON on two industrial case studies: a polymerization reactor start-up and a paper-machine grade-change problem, and benchmark it against Implicit Q-Learning (IQL), a leading offline-RL algorithm. In both plants HOFLON not only surpasses IQL but also delivers, on average, better cumulative rewards than the best start-up or grade-change observed in the historical data, demonstrating its potential to automate transition operations beyond current expert capability.
- Abstract(参考訳): スタートアップと製品グレードの変更は、継続的プロセスのプラント運用において重要なステップである。
これらの移行は、少数の専門家が手動で行うことに依存してきたが、その労働者の漸進的な引退は、植物を一貫して実行するために必要な暗黙のノウハウなしに、工場の所有者を残している。
プロセスモデルがない場合、オフライン強化学習(RL)は、過去のスタートアップとグレードチェンジログをマイニングすることで、人間の専門知識を捕捉し、さらに超えることを約束します。
これらの制限を克服するためにHOFLON(Hybrid Offline Learning + Online Optimization)を導入します。
ホフロンがオフラインで学ぶ
(i)過去の遷移によって広がる実現可能な領域を表す潜伏データ多様体
(ii)状態-作用対からの累積報酬を予測する長い水平Q-批判。
オンラインでは、学習された多様体からの偏差と操作された変数の過度な変化率をペナルティ化しながら、Q批判を最大化するワンステップ最適化問題を解く。
HOFLONは, 重合器起動と紙機械のグレードチェンジ問題という2つの産業ケーススタディで試験を行い, オフラインRLアルゴリズムであるImplicit Q-Learning (IQL) と比較した。
どちらのプラントでもHOFLONはIQLを超えるだけでなく、履歴データに見られる最高のスタートアップやグレードチェンジよりも平均的に、累積的な報酬を提供する。
関連論文リスト
- RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs? [92.4931695205957]
DELTA-Codeは、学習可能性と伝達可能性という2つの基本的な側面を探索するために設計された、合成符号問題ファミリーのベンチマークである。
実験の結果, ほぼゼロ報酬の期間が延長された後, RL訓練モデルが突然, ほぼ完全な精度に上昇した。
従来未解決であった問題ファミリの学習性を確保するため,深い報酬を伴うウォームアップ,経験リプレイ,カリキュラムトレーニング,ループ内検証などの重要なトレーニング項目を探索する。
論文 参考訳(メタデータ) (2025-09-25T11:20:56Z) - Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network [23.481553466650453]
本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。
ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。
決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2025-02-01T03:04:53Z) - Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T03:02:49Z) - Offline Trajectory Optimization for Offline Reinforcement Learning [42.306438854850434]
オフライン強化学習は オンライン調査なしで 政策を学ぶことを目的としています
オフラインRLのための既存のデータ拡張手法は、(i)短期水平シミュレーションによる自明な改善に悩まされている。
オフライン強化学習(OTTO)のためのオフライン軌道最適化を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。