論文の概要: Nuclear Microreactor Control with Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.00156v1
- Date: Mon, 31 Mar 2025 19:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:39.823627
- Title: Nuclear Microreactor Control with Deep Reinforcement Learning
- Title(参考訳): 深部強化学習による原子力マイクロリアクター制御
- Authors: Leo Tunkle, Kamal Abdulraheem, Linyu Lin, Majdi I. Radaideh,
- Abstract要約: 本研究では,マイクロリアクターのドラム制御における深部強化学習(RL)の適用について検討する。
RLコントローラは従来の比例積分微分(PID)コントローラと同様またはそれ以上の負荷追従性能を達成できる。
- 参考スコア(独自算出の注目度): 0.40498500266986387
- License:
- Abstract: The economic feasibility of nuclear microreactors will depend on minimizing operating costs through advancements in autonomous control, especially when these microreactors are operating alongside other types of energy systems (e.g., renewable energy). This study explores the application of deep reinforcement learning (RL) for real-time drum control in microreactors, exploring performance in regard to load-following scenarios. By leveraging a point kinetics model with thermal and xenon feedback, we first establish a baseline using a single-output RL agent, then compare it against a traditional proportional-integral-derivative (PID) controller. This study demonstrates that RL controllers, including both single- and multi-agent RL (MARL) frameworks, can achieve similar or even superior load-following performance as traditional PID control across a range of load-following scenarios. In short transients, the RL agent was able to reduce the tracking error rate in comparison to PID. Over extended 300-minute load-following scenarios in which xenon feedback becomes a dominant factor, PID maintained better accuracy, but RL still remained within a 1% error margin despite being trained only on short-duration scenarios. This highlights RL's strong ability to generalize and extrapolate to longer, more complex transients, affording substantial reductions in training costs and reduced overfitting. Furthermore, when control was extended to multiple drums, MARL enabled independent drum control as well as maintained reactor symmetry constraints without sacrificing performance -- an objective that standard single-agent RL could not learn. We also found that, as increasing levels of Gaussian noise were added to the power measurements, the RL controllers were able to maintain lower error rates than PID, and to do so with less control effort.
- Abstract(参考訳): 原子力マイクロリアクターの経済的実現性は、特にこれらのマイクロリアクターが他の種類のエネルギーシステム(例えば再生可能エネルギー)と共に稼働している場合、自律制御の進歩による運用コストの最小化に依存する。
本研究では,マイクロリアクタにおける実時間ドラム制御への深部強化学習(RL)の適用について検討し,負荷追従シナリオにおける性能について検討した。
熱およびキセノンフィードバックによる点運動モデルを活用することにより、まず単出力RLエージェントを用いてベースラインを確立し、従来の比例積分微分(PID)コントローラと比較する。
本研究では、シングルエージェントとマルチエージェントのRL(MARL)フレームワークを含むRLコントローラが、従来のPID制御と同様またはそれ以上の負荷追従性能を、様々な負荷追従シナリオで達成できることを実証する。
短時間で、RLエージェントはPIDと比較してトラッキングエラー率を低減できた。
クセノンフィードバックが支配的な要因となる300分間の負荷追従シナリオが延長され、PIDは精度が向上したが、RLは短期訓練シナリオでのみ訓練されているにもかかわらず、1%エラーマージンに留まった。
このことは、RLがより長く、より複雑なトランジェントに一般化し、外挿する強力な能力を強調し、訓練コストを大幅に削減し、過度な適合を減らしたことを示している。
さらに、制御が複数のドラムに拡張されたとき、MARLは独立したドラム制御と原子炉対称性の制約を性能を犠牲にすることなく実現した。
また、パワー測定にガウスノイズのレベルが増すにつれて、RLコントローラはPIDよりも低い誤差率を維持することができ、制御の手間を省くことができることがわかった。
関連論文リスト
- FitLight: Federated Imitation Learning for Plug-and-Play Autonomous Traffic Signal Control [33.547772623142414]
強化学習(Reinforcement Learning, RL)に基づく交通信号制御(TSC)手法は, 高い学習コストや一般化性の低下といった深刻な問題を提起する。
We propose a novel Federated Imitation Learning (FIL) based framework for multi-intersection TSC, named FitLight。
FitLightはリアルタイムの模倣学習と強化学習へのシームレスな移行を可能にする。
論文 参考訳(メタデータ) (2025-02-17T15:48:46Z) - Multistep Criticality Search and Power Shaping in Microreactors with Reinforcement Learning [0.3562485774739681]
核マイクロリアクターにおける知的制御のための強化学習(RL)アルゴリズムを導入する。
近位政策最適化(PPO)とアクター・クリティカル(A2C)を用いたRLエージェントの訓練
その結果, 最適ドラム位置同定におけるPPOの優れた性能が示された。
論文 参考訳(メタデータ) (2024-06-22T20:14:56Z) - Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving [63.155562267383864]
深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。
そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T09:00:30Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam
Intensity Control in Mu2e [3.860979702631594]
我々は,Fermi National Accelerator Laboratory (Fermilab) におけるMuon to Electron Conversion Experiment (Mu2e) における均一な陽子ビーム強度の伝達を維持することを目的とした,新しいPPOアルゴリズムを提案する。
我々の主な目的は、一貫した強度プロファイルを確保するために、一貫した強度プロファイルを確保するために、スピル制御システム(SRS)パラメータのリアルタイムフィードバックとキャリブレーションをミリ秒のタイムスケールで実現する自動制御器を作成することにある。
論文 参考訳(メタデータ) (2023-12-28T21:35:20Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Skip Training for Multi-Agent Reinforcement Learning Controller for
Industrial Wave Energy Converters [94.84709449845352]
近年のウェーブ・エナジー・コンバータ(WEC)は、発電を最大化するために複数の脚と発電機を備えている。
従来のコントローラは複雑な波のパターンを捕捉する制限を示しており、コントローラはエネルギー捕獲を効率的に最大化する必要がある。
本稿では,従来のスプリングダンパよりも優れたマルチエージェント強化学習コントローラ(MARL)を提案する。
論文 参考訳(メタデータ) (2022-09-13T00:20:31Z) - Low Emission Building Control with Zero-Shot Reinforcement Learning [70.70479436076238]
強化学習(RL)による制御は、建築エネルギー効率を著しく向上させることが示されている。
我々は、ゼロショットビルディング制御と呼ばれるパラダイムを優先せずに、排出削減ポリシーを得られることを示す。
論文 参考訳(メタデータ) (2022-08-12T17:13:25Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Reducing the Deployment-Time Inference Control Costs of Deep
Reinforcement Learning Agents via an Asymmetric Architecture [6.824961837445515]
計算コストの高い政策と経済的な政策を切り替えることで、全体的な推論コストを削減できる非対称アーキテクチャを提案する。
その結果,提案手法はエージェント全体の性能を維持しつつ,推論コストを低減できることがわかった。
論文 参考訳(メタデータ) (2021-05-30T09:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。