Fugu-MT 論文翻訳(概要): Robust optimal well control using an adaptive multi-grid reinforcement learning framework

論文の概要: Robust optimal well control using an adaptive multi-grid reinforcement learning framework

arxiv url: http://arxiv.org/abs/2207.03253v1
Date: Thu, 7 Jul 2022 12:08:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-08 22:39:24.639935
Title: Robust optimal well control using an adaptive multi-grid reinforcement learning framework
Title（参考訳）: 適応型マルチグリッド強化学習フレームワークを用いたロバスト最適ウェル制御
Authors: Atish Dixit, Ahmed H. ElSheikh
Abstract要約: 強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60～70%を削減した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) is a promising tool to solve robust optimal well control problems where the model parameters are highly uncertain, and the system is partially observable in practice. However, RL of robust control policies often relies on performing a large number of simulations. This could easily become computationally intractable for cases with computationally intensive simulations. To address this bottleneck, an adaptive multi-grid RL framework is introduced which is inspired by principles of geometric multi-grid methods used in iterative numerical algorithms. RL control policies are initially learned using computationally efficient low fidelity simulations using coarse grid discretization of the underlying partial differential equations (PDEs). Subsequently, the simulation fidelity is increased in an adaptive manner towards the highest fidelity simulation that correspond to finest discretization of the model domain. The proposed framework is demonstrated using a state-of-the-art, model-free policy-based RL algorithm, namely the Proximal Policy Optimisation (PPO) algorithm. Results are shown for two case studies of robust optimal well control problems which are inspired from SPE-10 model 2 benchmark case studies. Prominent gains in the computational efficiency is observed using the proposed framework saving around 60-70% of computational cost of its single fine-grid counterpart.
Abstract（参考訳）: 強化学習(rl)は、モデルパラメータが極めて不確実であり、システムが部分的に観測可能であるロバストな最適井戸制御問題を解決するための有望なツールである。しかし、堅牢な制御ポリシーのRLは、しばしば多数のシミュレーションを実行することに依存する。これは、計算集約的なシミュレーションの場合、容易に計算的に難解になる。このボトルネックに対処するために、反復数値アルゴリズムで使用される幾何的多重グリッド法の原理に着想を得た適応型多グリッドRLフレームワークが導入された。 rl制御ポリシーは、基礎となる偏微分方程式(pdes)の粗い格子離散化を用いて計算効率のよい低忠実性シミュレーションを用いて最初に学習される。その後、モデル領域の最も細かい離散化に対応する最高忠実度シミュレーションへ適応的にシミュレーション忠実度を増加させる。提案手法は,最先端のモデルフリーなポリシーベースrlアルゴリズム,すなわちppo(proximal policy optimization)アルゴリズムを用いて実証された。 SPE-10モデル2ベンチマークのケーススタディから着想を得た、堅牢な最適ウェルコントロール問題の2つのケーススタディを示す。計算効率の著明な向上は、計算コストの約60-70%を節約する提案フレームワークを用いて観測される。

関連論文リスト

Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。 MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-14T02:31:52Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-25T13:39:45Z)
Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。 PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文参考訳（メタデータ） (2024-08-28T08:35:34Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-04T01:47:37Z)
Pontryagin Optimal Control via Neural Networks [19.546571122359534]
我々は,ニューラルネットワークをポントリャーギンの最大原理(PMP)と統合し,NN-PMP-Gradient の効率的なフレームワークを提案する。結果として生じるコントローラは、未知の複雑な力学を持つシステムに実装することができる。モデルフリーおよびモデルベース強化学習(RL)アルゴリズムと比較して, NN-PMP-Gradientは, 制御目的の観点から高いサンプル効率と性能を実現する。
論文参考訳（メタデータ） (2022-12-30T06:47:03Z)
A multilevel reinforcement learning framework for PDE based control [0.2538209532048867]
強化学習(RL)は制御問題を解くための有望な方法である。モデルフリーなRLアルゴリズムは、サンプル非効率であり、最適な制御ポリシーを学ぶために、数百万のサンプルを必要としない何千ものサンプルを必要とする。本稿では,粗いスケールの離散化に対応するサブレベルモデルを活用することで,コストの低減を図るため,マルチレベルRLフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-15T23:52:48Z)
Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。提案手法はRパッケージプローブに実装されている。
論文参考訳（メタデータ） (2022-09-16T19:15:50Z)
An Actor-Critic Method for Simulation-Based Optimization [6.261751912603047]
実現可能な空間から最適な設計を選択するためのシミュレーションに基づく最適化問題に焦点をあてる。政策探索問題としてサンプリングプロセスを定式化し、強化学習(RL)の観点から解を求める。いくつかの実験は提案アルゴリズムの有効性を検証するために設計されている。
論文参考訳（メタデータ） (2021-10-31T09:04:23Z)
Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文参考訳（メタデータ） (2021-03-01T22:55:48Z)
Recurrent Model Predictive Control [19.047059454849897]
一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
論文参考訳（メタデータ） (2021-02-23T15:01:36Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。