論文の概要: Multistep Criticality Search and Power Shaping in Microreactors with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.15931v1
- Date: Sat, 22 Jun 2024 20:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:53:14.105312
- Title: Multistep Criticality Search and Power Shaping in Microreactors with Reinforcement Learning
- Title(参考訳): 強化学習によるマイクロリアクターの多段階臨界探索と電力整形
- Authors: Majdi I. Radaideh, Leo Tunkle, Dean Price, Kamal Abdulraheem, Linyu Lin, Moutaz Elias,
- Abstract要約: 核マイクロリアクターにおける知的制御のための強化学習(RL)アルゴリズムを導入する。
近位政策最適化(PPO)とアクター・クリティカル(A2C)を用いたRLエージェントの訓練
その結果, 最適ドラム位置同定におけるPPOの優れた性能が示された。
- 参考スコア(独自算出の注目度): 0.3562485774739681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reducing operation and maintenance costs is a key objective for advanced reactors in general and microreactors in particular. To achieve this reduction, developing robust autonomous control algorithms is essential to ensure safe and autonomous reactor operation. Recently, artificial intelligence and machine learning algorithms, specifically reinforcement learning (RL) algorithms, have seen rapid increased application to control problems, such as plasma control in fusion tokamaks and building energy management. In this work, we introduce the use of RL for intelligent control in nuclear microreactors. The RL agent is trained using proximal policy optimization (PPO) and advantage actor-critic (A2C), cutting-edge deep RL techniques, based on a high-fidelity simulation of a microreactor design inspired by the Westinghouse eVinci\textsuperscript{TM} design. We utilized a Serpent model to generate data on drum positions, core criticality, and core power distribution for training a feedforward neural network surrogate model. This surrogate model was then used to guide a PPO and A2C control policies in determining the optimal drum position across various reactor burnup states, ensuring critical core conditions and symmetrical power distribution across all six core portions. The results demonstrate the excellent performance of PPO in identifying optimal drum positions, achieving a hextant power tilt ratio of approximately 1.002 (within the limit of $<$ 1.02) and maintaining criticality within a 10 pcm range. A2C did not provide as competitive of a performance as PPO in terms of performance metrics for all burnup steps considered in the cycle. Additionally, the results highlight the capability of well-trained RL control policies to quickly identify control actions, suggesting a promising approach for enabling real-time autonomous control through digital twins.
- Abstract(参考訳): 運転コストとメンテナンスコストの削減は、一般的な先進的な原子炉と特にマイクロリアクターにとって重要な目標である。
この削減を実現するためには、安全かつ自律的な原子炉運転を確保するために、堅牢な自律制御アルゴリズムの開発が不可欠である。
近年、人工知能と機械学習アルゴリズム、特に強化学習(RL)アルゴリズムは、融合トカマクにおけるプラズマ制御やエネルギー管理などの制御問題に急速に応用されている。
本稿では,原子力マイクロリアクターのインテリジェント制御におけるRLの利用について紹介する。
RLエージェントは、ウェスティングハウスeVinci\textsuperscript{TM}設計にインスパイアされたマイクロリアクター設計の高精度なシミュレーションに基づいて、PPOとA2C、最先端の深部RL技術を用いて訓練される。
我々は、Serpentモデルを用いて、ドラム位置、コア臨界度、コア電力分布のデータを生成し、フィードフォワードニューラルネットワークサロゲートモデルをトレーニングした。
このサロゲートモデルを用いて、PPOおよびA2C制御ポリシーを導出し、様々な原子炉燃焼状態における最適なドラム位置を決定し、臨界コア条件と6つのコア部分すべてに対称的な電力分布を確保する。
その結果, 最適ドラム位置同定におけるPPOの優れた性能, 約1.002($<$1.02)のヘクタントパワー傾き比を実現し, 臨界度を10cmの範囲で維持できることが示唆された。
A2Cは、サイクルで考慮されたすべてのバーンアップステップのパフォーマンス指標に関して、PPOほどパフォーマンスの競争力を提供していません。
さらに、よく訓練されたRL制御ポリシーが制御動作を迅速に識別する能力を強調し、デジタル双生児によるリアルタイム自律制御を可能にするための有望なアプローチを提案する。
関連論文リスト
- Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam
Intensity Control in Mu2e [3.860979702631594]
我々は,Fermi National Accelerator Laboratory (Fermilab) におけるMuon to Electron Conversion Experiment (Mu2e) における均一な陽子ビーム強度の伝達を維持することを目的とした,新しいPPOアルゴリズムを提案する。
我々の主な目的は、一貫した強度プロファイルを確保するために、一貫した強度プロファイルを確保するために、スピル制御システム(SRS)パラメータのリアルタイムフィードバックとキャリブレーションをミリ秒のタイムスケールで実現する自動制御器を作成することにある。
論文 参考訳(メタデータ) (2023-12-28T21:35:20Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - One-Step Two-Critic Deep Reinforcement Learning for Inverter-based
Volt-Var Control in Active Distribution Networks [15.667021542703564]
Inverter-based volt-var control (IB-VVC) のための1段階2段階深部強化学習法を提案する。
論文 参考訳(メタデータ) (2022-03-30T13:29:28Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Deep Surrogate Models for Multi-dimensional Regression of Reactor Power [0.0]
我々は,原子炉の電力分布の高精度かつ高精度な多次元回帰を提供するニューラルネットワークの能力を確立する。
その結果、ニューラルネットワークは、自律型原子炉制御フレームワークで実装するサロゲートモデルに適した選択であることが示された。
論文 参考訳(メタデータ) (2020-07-10T15:16:36Z) - Multi-Agent Meta-Reinforcement Learning for Self-Powered and Sustainable
Edge Computing Systems [87.4519172058185]
エッジコンピューティング機能を有するセルフパワー無線ネットワークの効率的なエネルギー分配機構について検討した。
定式化問題を解くために,新しいマルチエージェントメタ強化学習(MAMRL)フレームワークを提案する。
実験の結果、提案されたMAMRLモデルは、再生不可能なエネルギー使用量を最大11%削減し、エネルギーコストを22.4%削減できることが示された。
論文 参考訳(メタデータ) (2020-02-20T04:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。