論文の概要: Pareto Envelope Augmented with Reinforcement Learning: Multi-objective
reinforcement learning-based approach for Large-Scale Constrained Pressurized
Water Reactor optimization
- arxiv url: http://arxiv.org/abs/2312.10194v2
- Date: Tue, 19 Dec 2023 14:02:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 12:32:06.924340
- Title: Pareto Envelope Augmented with Reinforcement Learning: Multi-objective
reinforcement learning-based approach for Large-Scale Constrained Pressurized
Water Reactor optimization
- Title(参考訳): 強化学習によるPareto Envelopeの拡張:大規模拘束型加圧水炉最適化のための多目的強化学習に基づくアプローチ
- Authors: Paul Seurin and Koroush Shirvan
- Abstract要約: PEARLは、従来のポリシーに基づく多目的強化学習法とを、単一のポリシーを学習することで区別する。
ディープラーニングと進化的テクニックにインスパイアされたいくつかのバージョンが作成され、制約のない問題ドメインと制約のない問題ドメインの両方に対応している。
2つの実用的PWRコアローディングパターン最適化問題を用いて実世界の応用性を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A novel method, the Pareto Envelope Augmented with Reinforcement Learning
(PEARL), has been developed to address the challenges posed by multi-objective
problems, particularly in the field of engineering where the evaluation of
candidate solutions can be time-consuming. PEARL distinguishes itself from
traditional policy-based multi-objective Reinforcement Learning methods by
learning a single policy, eliminating the need for multiple neural networks to
independently solve simpler sub-problems. Several versions inspired from deep
learning and evolutionary techniques have been crafted, catering to both
unconstrained and constrained problem domains. Curriculum Learning is harnessed
to effectively manage constraints in these versions. PEARL's performance is
first evaluated on classical multi-objective benchmarks. Additionally, it is
tested on two practical PWR core Loading Pattern optimization problems to
showcase its real-world applicability. The first problem involves optimizing
the Cycle length and the rod-integrated peaking factor as the primary
objectives, while the second problem incorporates the mean average enrichment
as an additional objective. Furthermore, PEARL addresses three types of
constraints related to boron concentration, peak pin burnup, and peak pin
power. The results are systematically compared against a conventional approach,
the Non-dominated Sorting Genetic Algorithm. Notably, PEARL, specifically the
PEARL-NdS variant, efficiently uncovers a Pareto front without necessitating
additional efforts from the algorithm designer, as opposed to a single
optimization with scaled objectives. It also outperforms the classical approach
across multiple performance metrics, including the Hyper-volume.
- Abstract(参考訳): 多目的問題、特に、候補解の評価に時間がかかる工学の分野で生じる課題に対処するために、強化学習によるパレート包絡法(pareto envelope augmented with reinforcement learning, pearl)が開発されている。
PEARLは、従来のポリシーベースの多目的強化学習法と区別し、単一のポリシーを学習することで、より単純なサブプロブレムを独立して解決する複数のニューラルネットワークの必要性を排除している。
ディープラーニングと進化的テクニックから着想を得たいくつかのバージョンが作成され、制約のない問題ドメインと制約のない問題ドメインの両方に対応している。
カリキュラム学習は、これらのバージョンの制約を効果的に管理するために利用される。
PEARLの性能は、古典的な多目的ベンチマークで評価される。
さらに、実世界の応用性を示すために、2つの実用的なPWRコアローディングパターン最適化問題でテストされている。
第1の問題はサイクル長と棒積分ピーク係数を主目的として最適化することであり、第2の問題は平均エンリッチメントを付加目的として含んでいる。
さらに、PEARLはホウ素濃度、ピークピンバーンアップ、ピークピンパワーに関連する3種類の制約に対処する。
結果は従来の手法である非支配ソーティング遺伝的アルゴリズムと体系的に比較される。
特に、PEARL、特にPEARL-NdSは、スケールした目的を持った単一の最適化とは対照的に、アルゴリズム設計者による追加の努力を必要とせずに、効率的にパレートフロントを発見できる。
また、ハイパーボリュームを含む複数のパフォーマンスメトリクスにまたがる古典的なアプローチよりも優れています。
関連論文リスト
- C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。
我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文 参考訳(メタデータ) (2024-10-03T06:13:56Z) - Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling [0.0]
本研究では、連続緩和による勾配に基づく更新と準量子アナリング(QQA)を組み合わせた別のアプローチを提案する。
数値実験により,本手法はiSCOと学習型解法に匹敵する性能を有する汎用解法であることが示された。
論文 参考訳(メタデータ) (2024-09-02T12:55:27Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Supervised Contrastive Learning as Multi-Objective Optimization for
Fine-Tuning Large Pre-trained Language Models [3.759936323189417]
教師付きコントラスト学習(SCL)は,ほとんどの分類タスクにおいて優れた性能を発揮することが示されている。
本研究では,RoBERTa言語モデルの微調整フェーズにおける多目的最適化問題としてSCL問題を定式化する。
論文 参考訳(メタデータ) (2022-09-28T15:13:58Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。