論文の概要: A Safe Reinforcement Learning Algorithm for Supervisory Control of Power
Plants
- arxiv url: http://arxiv.org/abs/2401.13020v1
- Date: Tue, 23 Jan 2024 17:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 16:15:04.968177
- Title: A Safe Reinforcement Learning Algorithm for Supervisory Control of Power
Plants
- Title(参考訳): 発電所の監督制御のための安全強化学習アルゴリズム
- Authors: Yixuan Sun, Sami Khairy, Richard B. Vilim, Rui Hu, Akshay J. Dave
- Abstract要約: モデルフリー強化学習(RL)は、制御タスクのための有望なソリューションとして登場した。
本稿では,監督制御のための近似ポリシ最適化に基づく確率制約付きRLアルゴリズムを提案する。
本手法は, 原子力プラント設計における負荷追従操作において, 違反距離と違反率の最小化を実現するものである。
- 参考スコア(独自算出の注目度): 7.1771300511732585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional control theory-based methods require tailored engineering for
each system and constant fine-tuning. In power plant control, one often needs
to obtain a precise representation of the system dynamics and carefully design
the control scheme accordingly. Model-free Reinforcement learning (RL) has
emerged as a promising solution for control tasks due to its ability to learn
from trial-and-error interactions with the environment. It eliminates the need
for explicitly modeling the environment's dynamics, which is potentially
inaccurate. However, the direct imposition of state constraints in power plant
control raises challenges for standard RL methods. To address this, we propose
a chance-constrained RL algorithm based on Proximal Policy Optimization for
supervisory control. Our method employs Lagrangian relaxation to convert the
constrained optimization problem into an unconstrained objective, where
trainable Lagrange multipliers enforce the state constraints. Our approach
achieves the smallest distance of violation and violation rate in a load-follow
maneuver for an advanced Nuclear Power Plant design.
- Abstract(参考訳): 従来の制御理論に基づく手法では、各システムに適したエンジニアリングと一定の微調整が必要である。
プラント制御では、システムダイナミクスの正確な表現を取得し、それに従って制御スキームを慎重に設計する必要があることが多い。
モデルフリー強化学習(RL)は、環境との試行錯誤の相互作用から学習できることから、制御タスクのための有望なソリューションとして登場した。
これにより、環境のダイナミクスを明示的にモデル化する必要がなくなる。
しかし、プラント制御における状態制約の直接適用は、標準RL法の課題を提起する。
そこで本研究では,監督制御のためのポリシ最適化に基づく確率制約付きRLアルゴリズムを提案する。
本手法では,制約付き最適化問題を非拘束目的に変換するためにラグランジュ緩和を用い,学習可能なラグランジュ乗算器が状態制約を強制する。
本手法は, 原子力プラント設計における負荷追従操作において, 違反距離と違反率の最小化を実現する。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - A Constraint Enforcement Deep Reinforcement Learning Framework for
Optimal Energy Storage Systems Dispatch [0.0]
エネルギー貯蔵システム(ESS)の最適供給は、動的価格の変動、需要消費、再生可能エネルギーの発生による深刻な課題を提起する。
ディープニューラルネットワーク(DNN)の一般化機能を活用することで、ディープ強化学習(DRL)アルゴリズムは、分散ネットワークの性質に適応して応答する良質な制御モデルを学ぶことができる。
本稿では,オンライン操作における環境や行動空間の運用制約を厳格に実施しながら,継続的な行動空間を効果的に処理するDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-26T17:12:04Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Constrained Model-based Reinforcement Learning with Robust Cross-Entropy
Method [30.407700996710023]
本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。
本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。
その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
論文 参考訳(メタデータ) (2020-10-15T18:19:35Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。