論文の概要: Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization
- arxiv url: http://arxiv.org/abs/2305.05812v1
- Date: Tue, 9 May 2023 23:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 14:54:58.356980
- Title: Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization
- Title(参考訳): 原子力燃料最適化のための強化学習アルゴリズムの評価
- Authors: Paul Seurin, Koroush Shirvan
- Abstract要約: 本稿では, この手法の基礎を概説し, 統計的テストを支援する多測度手法を用いて, RLアルゴリズムに影響を及ぼすいくつかのハイパーパラメータの挙動について検討する。
将来的には、アルゴリズムを広範囲のアプリケーションに適用し、最適化手法の最先端の実装と比較する必要がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The nuclear fuel loading pattern optimization problem has been studied since
the dawn of the commercial nuclear energy industry. It is characterized by
multiple objectives and constraints, with a very high number of candidate
patterns, which makes it impossible to solve explicitly. Stochastic
optimization methodologies are used by different nuclear utilities and vendors
to perform fuel cycle reload design. Nevertheless, hand-designed solutions
continue to be the prevalent method in the industry. To improve the
state-of-the-art core reload patterns, we aim to create a method as scalable as
possible, that agrees with the designer's goal of performance and safety. To
help in this task Deep Reinforcement Learning (RL), in particular, Proximal
Policy Optimization is leveraged. RL has recently experienced a strong impetus
from its successes applied to games. This paper lays out the foundation of this
method and proposes to study the behavior of several hyper-parameters that
influence the RL algorithm via a multi-measure approach helped with statistical
tests. The algorithm is highly dependent on multiple factors such as the shape
of the objective function derived for the core design that behaves as a fudge
factor that affects the stability of the learning. But also an
exploration/exploitation trade-off that manifests through different parameters
such as the number of loading patterns seen by the agents per episode, the
number of samples collected before a policy update, and an entropy factor that
increases the randomness of the policy trained. Experimental results also
demonstrate the effectiveness of the method in finding high-quality solutions
from scratch within a reasonable amount of time. Future work must include
applying the algorithms to wide range of applications and comparing them to
state-of-the-art implementation of stochastic optimization methods.
- Abstract(参考訳): 核燃料負荷パターン最適化問題は、商用原子力産業の興隆以来研究されてきた。
複数の目的と制約が特徴で、非常に多くの候補パターンがあり、明示的に解決することは不可能である。
確率的最適化手法は、異なる原子力事業者やベンダーが燃料サイクルの再負荷設計を行うために使用される。
それでもなお、手作りのソリューションが業界で最も普及している方法です。
最先端のコアリロードパターンを改善するため,設計者の目標である性能と安全性に即した,可能な限りスケーラブルな手法の開発を目指している。
深層強化学習(Dreep Reinforcement Learning, RL)は, この課題を支援するために, 特に, 最適政策最適化を利用する。
RLは最近、ゲームに適用される成功から強い影響を受けている。
本稿では,本手法の基礎を概説し,rlアルゴリズムに影響を及ぼす複数のハイパーパラメータの挙動を,統計テストに有効なマルチメトリックアプローチを用いて検討する。
このアルゴリズムは、学習の安定性に影響を与えるファッジ因子として振る舞うコア設計のために導出される目的関数の形状など、複数の要因に大きく依存する。
しかし、各エピソードごとのエージェントが見るロードパターンの数、ポリシー更新の前に収集したサンプルの数、トレーニングされたポリシーのランダム性を高めるエントロピー因子など、さまざまなパラメータを通して現れる探索/探索のトレードオフもある。
また, 実験により, スクラッチから適切な時間内に高品質な解を求める方法の有効性が示された。
今後の課題は、アルゴリズムを幅広いアプリケーションに適用し、それらを確率最適化法の最先端の実装と比較することである。
関連論文リスト
- Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Delayed Geometric Discounts: An Alternative Criterion for Reinforcement
Learning [1.52292571922932]
強化学習(RL)は、最適行動を学ぶ理論的背景を提案する。
実際には、RLアルゴリズムはこの最適性を評価するために幾何割引に依存する。
本稿では,遅延対象関数の族による割引問題定式化を一般化することにより,これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-26T07:49:38Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Automatic tuning of hyper-parameters of reinforcement learning
algorithms using Bayesian optimization with behavioral cloning [0.0]
強化学習(RL)では、学習エージェントが収集したデータの情報内容は多くのハイパーパラメータの設定に依存する。
本研究では,ベイズ最適化を用いた自律的ハイパーパラメータ設定手法を提案する。
実験は、他の手作業による調整や最適化ベースのアプローチと比較して、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-15T13:10:44Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。