論文の概要: Iterative Learning Control-Informed Reinforcement Learning for Batch Process Control
- arxiv url: http://arxiv.org/abs/2603.15180v1
- Date: Mon, 16 Mar 2026 12:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.205137
- Title: Iterative Learning Control-Informed Reinforcement Learning for Batch Process Control
- Title(参考訳): バッチプロセス制御のための反復学習制御-インフォームド強化学習
- Authors: Runze Lin, Ziqi Zhuo, Junghui Chen, Lei Xie, Hongye Su,
- Abstract要約: 本研究では,2層バッチ・ツー・バッチおよびバッチ・プロセス内制御アーキテクチャにおいてDRLコントローラを訓練するための反復学習制御インフォームド・強化学習(IL-CIRL)フレームワークを提案する。
提案手法はカルマンフィルタに基づく状態推定を反復学習構造に組み込んで,DRLエージェントを動作制約を満たす制御ポリシーへ誘導し,安定性を保証する。
- 参考スコア(独自算出の注目度): 17.081987402115477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A significant limitation of Deep Reinforcement Learning (DRL) is the stochastic uncertainty in actions generated during exploration-exploitation, which poses substantial safety risks during both training and deployment. In industrial process control, the lack of formal stability and convergence guarantees further inhibits adoption of DRL methods by practitioners. Conversely, Iterative Learning Control (ILC) represents a well-established autonomous control methodology for repetitive systems, particularly in batch process optimization. ILC achieves desired control performance through iterative refinement of control laws, either between consecutive batches or within individual batches, to compensate for both repetitive and non-repetitive disturbances. This study introduces an Iterative Learning Control-Informed Reinforcement Learning (IL-CIRL) framework for training DRL controllers in dual-layer batch-to-batch and within-batch control architectures for batch processes. The proposed method incorporates Kalman filter-based state estimation within the iterative learning structure to guide DRL agents toward control policies that satisfy operational constraints and ensure stability guarantees. This approach enables the systematic design of DRL controllers for batch processes operating under multiple disturbance conditions.
- Abstract(参考訳): 深層強化学習(Dreep Reinforcement Learning, DRL)の重大な制限は、探索探査時に発生する行動の確率的不確実性であり、訓練と展開の両方でかなりの安全性のリスクを引き起こす。
産業プロセス制御において、形式的安定性と収束性の欠如は、実践者によるDRL法の採用をさらに抑制する。
逆に、反復学習制御(ILC)は、特にバッチプロセス最適化において、繰り返しシステムのための確立された自律制御方法論である。
ILCは、繰り返しと非反復の両方の障害を補うために、連続するバッチ間または個別のバッチ内での制御法則を反復的に洗練することで、所望の制御性能を達成する。
本研究では,2層バッチ・ツー・バッチおよびバッチ・プロセス内制御アーキテクチャにおいてDRLコントローラを訓練するための反復学習制御インフォームド・強化学習(IL-CIRL)フレームワークを提案する。
提案手法はカルマンフィルタに基づく状態推定を反復学習構造に組み込んで,DRLエージェントを動作制約を満たす制御ポリシーへ誘導し,安定性を保証する。
このアプローチにより、複数の外乱条件下で動作するバッチプロセスのためのDRLコントローラの体系設計が可能となる。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Reinforcement Learning with Adaptive Regularization for Safe Control of Critical Systems [2.126171264016785]
安全なRL探索を可能にするアルゴリズムである適応正規化(RL-AR)を提案する。
RL-ARは「フォーカスモジュール」を介してポリシーの組み合わせを行い、状態に応じて適切な組み合わせを決定する。
一連のクリティカルコントロールアプリケーションにおいて、RL-ARはトレーニング中の安全性を保証するだけでなく、モデルフリーなRLの標準との競合も得ることを示した。
論文 参考訳(メタデータ) (2024-04-23T16:35:14Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Optimal PID and Antiwindup Control Design as a Reinforcement Learning
Problem [3.131740922192114]
DRL制御法の解釈可能性に着目した。
特に、線形固定構造コントローラをアクター・クリティカル・フレームワークに埋め込まれた浅層ニューラルネットワークとみなす。
論文 参考訳(メタデータ) (2020-05-10T01:05:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。