論文の概要: Safe Deployment of Offline Reinforcement Learning via Input Convex Action Correction
- arxiv url: http://arxiv.org/abs/2507.22640v1
- Date: Wed, 30 Jul 2025 12:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.215066
- Title: Safe Deployment of Offline Reinforcement Learning via Input Convex Action Correction
- Title(参考訳): 入力凸行動補正によるオフライン強化学習の安全な展開
- Authors: Alex Durkin, Jasper Stolte, Matthew Jones, Raghuraman Pitchumani, Bei Li, Christian Michler, Mehmet Mercangöz,
- Abstract要約: オフライン強化学習(オフラインRL)は、化学プロセスシステムにおける制御戦略を開発するための有望なフレームワークを提供する。
本研究は, 常用RLを高効率で高効率に利用し, 室温重合反応器の高効率制御について検討する。
- 参考スコア(独自算出の注目度): 9.509828265491064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (offline RL) offers a promising framework for developing control strategies in chemical process systems using historical data, without the risks or costs of online experimentation. This work investigates the application of offline RL to the safe and efficient control of an exothermic polymerisation continuous stirred-tank reactor. We introduce a Gymnasium-compatible simulation environment that captures the reactor's nonlinear dynamics, including reaction kinetics, energy balances, and operational constraints. The environment supports three industrially relevant scenarios: startup, grade change down, and grade change up. It also includes reproducible offline datasets generated from proportional-integral controllers with randomised tunings, providing a benchmark for evaluating offline RL algorithms in realistic process control tasks. We assess behaviour cloning and implicit Q-learning as baseline algorithms, highlighting the challenges offline agents face, including steady-state offsets and degraded performance near setpoints. To address these issues, we propose a novel deployment-time safety layer that performs gradient-based action correction using input convex neural networks (PICNNs) as learned cost models. The PICNN enables real-time, differentiable correction of policy actions by descending a convex, state-conditioned cost surface, without requiring retraining or environment interaction. Experimental results show that offline RL, particularly when combined with convex action correction, can outperform traditional control approaches and maintain stability across all scenarios. These findings demonstrate the feasibility of integrating offline RL with interpretable and safety-aware corrections for high-stakes chemical process control, and lay the groundwork for more reliable data-driven automation in industrial systems.
- Abstract(参考訳): オフライン強化学習(オフラインRL)は、オンライン実験のリスクやコストを伴わずに、履歴データを用いた化学プロセスシステムにおける制御戦略を開発するための有望なフレームワークを提供する。
本研究は, 常用RLを高効率で高効率に利用し, 室温重合反応器の高効率制御について検討する。
本稿では, 反応速度, エネルギー収支, 運転制約など, 原子炉の非線形力学を捉える, ギムナジウム互換のシミュレーション環境を導入する。
この環境は、スタートアップ、グレードダウン、グレードアップという、産業的に関係のある3つのシナリオをサポートしている。
また、ランダムなチューニングを備えた比例積分コントローラから生成された再現可能なオフラインデータセットが含まれており、現実的なプロセス制御タスクにおいてオフラインRLアルゴリズムを評価するためのベンチマークを提供する。
動作のクローン化と暗黙的なQ-ラーニングをベースラインアルゴリズムとして評価し、定常オフセットやセットポイント付近の性能低下など、オフラインエージェントが直面する課題を強調した。
これらの問題に対処するために,入力凸ニューラルネットワーク(PICNN)を学習コストモデルとして,勾配に基づく動作補正を行う新しい配置時安全層を提案する。
PICNNは、リトレーニングや環境相互作用を必要とせず、凸状で状態条件のあるコスト面を下降させることで、リアルタイムで差別化可能なポリシー動作の修正を可能にする。
実験の結果、特に凸作用補正と組み合わせた場合、オフラインRLは従来の制御手法より優れ、全てのシナリオにおける安定性が維持できることがわかった。
これらの結果から, 産業システムにおけるより信頼性の高いデータ駆動自動化の土台を築き上げた。
関連論文リスト
- Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - CHEQ-ing the Box: Safe Variable Impedance Learning for Robotic Polishing [5.467140383171385]
本研究では, 可変インピーダンスを有するロボット研磨のためのハイブリッドRLアルゴリズムCHEQの実験的検討を行った。
ハードウェア上では、CHEQは効果的な研磨動作を実現し、8時間のトレーニングを必要とせず、5回の障害しか発生しない。
その結果、ハードウェア上で直接訓練された実世界のコンタクトリッチなタスクに対して、適応型ハイブリッドRLの可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-01-14T10:13:41Z) - CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning [38.63187494867502]
CtRL-Simは、リターン条件付きオフライン強化学習(RL)を利用して、リアクティブで制御可能なトラフィックエージェントを効率的に生成する手法である。
CtRL-Simは,エージェントの挙動を詳細に制御しながら,現実的な安全クリティカルシナリオを生成可能であることを示す。
論文 参考訳(メタデータ) (2024-03-29T02:10:19Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Environment Transformer and Policy Optimization for Model-Based Offline
Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。
遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2023-03-07T11:26:09Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。