論文の概要: Pareto Envelope Augmented with Reinforcement Learning: Multi-objective
reinforcement learning-based approach for Large-Scale Constrained Pressurized
Water Reactor optimization
- arxiv url: http://arxiv.org/abs/2312.10194v2
- Date: Tue, 19 Dec 2023 14:02:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 12:32:06.924340
- Title: Pareto Envelope Augmented with Reinforcement Learning: Multi-objective
reinforcement learning-based approach for Large-Scale Constrained Pressurized
Water Reactor optimization
- Title(参考訳): 強化学習によるPareto Envelopeの拡張:大規模拘束型加圧水炉最適化のための多目的強化学習に基づくアプローチ
- Authors: Paul Seurin and Koroush Shirvan
- Abstract要約: PEARLは、従来のポリシーに基づく多目的強化学習法とを、単一のポリシーを学習することで区別する。
ディープラーニングと進化的テクニックにインスパイアされたいくつかのバージョンが作成され、制約のない問題ドメインと制約のない問題ドメインの両方に対応している。
2つの実用的PWRコアローディングパターン最適化問題を用いて実世界の応用性を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A novel method, the Pareto Envelope Augmented with Reinforcement Learning
(PEARL), has been developed to address the challenges posed by multi-objective
problems, particularly in the field of engineering where the evaluation of
candidate solutions can be time-consuming. PEARL distinguishes itself from
traditional policy-based multi-objective Reinforcement Learning methods by
learning a single policy, eliminating the need for multiple neural networks to
independently solve simpler sub-problems. Several versions inspired from deep
learning and evolutionary techniques have been crafted, catering to both
unconstrained and constrained problem domains. Curriculum Learning is harnessed
to effectively manage constraints in these versions. PEARL's performance is
first evaluated on classical multi-objective benchmarks. Additionally, it is
tested on two practical PWR core Loading Pattern optimization problems to
showcase its real-world applicability. The first problem involves optimizing
the Cycle length and the rod-integrated peaking factor as the primary
objectives, while the second problem incorporates the mean average enrichment
as an additional objective. Furthermore, PEARL addresses three types of
constraints related to boron concentration, peak pin burnup, and peak pin
power. The results are systematically compared against a conventional approach,
the Non-dominated Sorting Genetic Algorithm. Notably, PEARL, specifically the
PEARL-NdS variant, efficiently uncovers a Pareto front without necessitating
additional efforts from the algorithm designer, as opposed to a single
optimization with scaled objectives. It also outperforms the classical approach
across multiple performance metrics, including the Hyper-volume.
- Abstract(参考訳): 多目的問題、特に、候補解の評価に時間がかかる工学の分野で生じる課題に対処するために、強化学習によるパレート包絡法(pareto envelope augmented with reinforcement learning, pearl)が開発されている。
PEARLは、従来のポリシーベースの多目的強化学習法と区別し、単一のポリシーを学習することで、より単純なサブプロブレムを独立して解決する複数のニューラルネットワークの必要性を排除している。
ディープラーニングと進化的テクニックから着想を得たいくつかのバージョンが作成され、制約のない問題ドメインと制約のない問題ドメインの両方に対応している。
カリキュラム学習は、これらのバージョンの制約を効果的に管理するために利用される。
PEARLの性能は、古典的な多目的ベンチマークで評価される。
さらに、実世界の応用性を示すために、2つの実用的なPWRコアローディングパターン最適化問題でテストされている。
第1の問題はサイクル長と棒積分ピーク係数を主目的として最適化することであり、第2の問題は平均エンリッチメントを付加目的として含んでいる。
さらに、PEARLはホウ素濃度、ピークピンバーンアップ、ピークピンパワーに関連する3種類の制約に対処する。
結果は従来の手法である非支配ソーティング遺伝的アルゴリズムと体系的に比較される。
特に、PEARL、特にPEARL-NdSは、スケールした目的を持った単一の最適化とは対照的に、アルゴリズム設計者による追加の努力を必要とせずに、効率的にパレートフロントを発見できる。
また、ハイパーボリュームを含む複数のパフォーマンスメトリクスにまたがる古典的なアプローチよりも優れています。
関連論文リスト
- An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [60.94111369773497]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Principled Penalty-based Methods for Bilevel Reinforcement Learning and
RLHF [92.98631843849503]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - A Learnheuristic Approach to A Constrained Multi-Objective Portfolio
Optimisation Problem [0.0]
本稿では,多目的ポートフォリオ最適化について検討する。
所定のリターン率のリスクを最小化しつつ、期待したリターンを最大化する目的を達成することを目的としている。
論文 参考訳(メタデータ) (2023-04-13T17:05:45Z) - A Scale-Independent Multi-Objective Reinforcement Learning with
Convergence Analysis [0.6091702876917281]
多くのシーケンシャルな意思決定問題は、対立する可能性のある異なる目的の最適化を必要とする。
本稿では,Advantage Actor-Critic (A2C)アルゴリズムに基づいて,単エージェントスケール非依存型多目的強化学習を開発する。
次に、収束保証を提供する考案された多目的アルゴリズムに対して収束解析を行う。
論文 参考訳(メタデータ) (2023-02-08T16:38:55Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Supervised Contrastive Learning as Multi-Objective Optimization for
Fine-Tuning Large Pre-trained Language Models [3.759936323189417]
教師付きコントラスト学習(SCL)は,ほとんどの分類タスクにおいて優れた性能を発揮することが示されている。
本研究では,RoBERTa言語モデルの微調整フェーズにおける多目的最適化問題としてSCL問題を定式化する。
論文 参考訳(メタデータ) (2022-09-28T15:13:58Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。