論文の概要: Stochastic optimal well control in subsurface reservoirs using
reinforcement learning
- arxiv url: http://arxiv.org/abs/2207.03456v2
- Date: Fri, 8 Jul 2022 20:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-16 10:19:37.761632
- Title: Stochastic optimal well control in subsurface reservoirs using
reinforcement learning
- Title(参考訳): 補強学習を用いた地下貯水池の確率的最適井戸制御
- Authors: Atish Dixit, Ahmed H. ElSheikh
- Abstract要約: 本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a case study of model-free reinforcement learning (RL) framework
to solve stochastic optimal control for a predefined parameter uncertainty
distribution and partially observable system. We focus on robust optimal well
control problem which is a subject of intensive research activities in the
field of subsurface reservoir management. For this problem, the system is
partially observed since the data is only available at well locations.
Furthermore, the model parameters are highly uncertain due to sparsity of
available field data. In principle, RL algorithms are capable of learning
optimal action policies -- a map from states to actions -- to maximize a
numerical reward signal. In deep RL, this mapping from state to action is
parameterized using a deep neural network. In the RL formulation of the robust
optimal well control problem, the states are represented by saturation and
pressure values at well locations while the actions represent the valve
openings controlling the flow through wells. The numerical reward refers to the
total sweep efficiency and the uncertain model parameter is the subsurface
permeability field. The model parameter uncertainties are handled by
introducing a domain randomisation scheme that exploits cluster analysis on its
uncertainty distribution. We present numerical results using two
state-of-the-art RL algorithms, proximal policy optimization (PPO) and
advantage actor-critic (A2C), on two subsurface flow test cases representing
two distinct uncertainty distributions of permeability field. The results were
benchmarked against optimisation results obtained using differential evolution
algorithm. Furthermore, we demonstrate the robustness of the proposed use of RL
by evaluating the learned control policy on unseen samples drawn from the
parameter uncertainty distribution that were not used during the training
process.
- Abstract(参考訳): 本稿では,事前定義されたパラメータ不確実性分布と部分観測可能なシステムの確率的最適制御を解決するためのモデルフリー強化学習(rl)フレームワークのケーススタディについて述べる。
地下貯留層管理分野における集中的研究活動の課題であるロバスト最適ウェルコントロール問題に焦点を当てた。
この問題に対して、データは井戸でのみ利用可能なため、システムは部分的に観測される。
さらに、利用可能なフィールドデータのスパース性のため、モデルパラメータは非常に不確かである。
原則として、RLアルゴリズムは、状態から行動へのマップである最適なアクションポリシーを学習し、数値的な報酬信号を最大化することができる。
deep rlでは、状態から動作へのこのマッピングはディープニューラルネットワークを使用してパラメータ化される。
ロバスト最適井戸制御問題のrl定式化では、状態は飽和度と井戸内の圧力値で表され、作用は井戸を通る流れを制御するバルブ開口を表す。
数値的な報酬は全掃討効率を示し、不確定なモデルパラメータは地下透水性場である。
モデルパラメータの不確実性は、不確実性分布のクラスター分析を利用するドメインランダム化スキームを導入することで処理される。
透水性場の2つの異なる不確かさ分布を表す2つの地下流れ実験事例について,最先端rlアルゴリズムであるppo(proximal policy optimization)とa2c( advantage actor-critic)を用いて数値計算を行った。
その結果,微分進化アルゴリズムを用いて最適化結果と比較した。
さらに,学習中に使用しなかったパラメータの不確かさ分布から得られた未発見サンプルの学習制御ポリシーを評価することにより,提案手法の頑健性を示す。
関連論文リスト
- Sublinear Regret for An Actor-Critic Algorithm in Continuous-Time Linear-Quadratic Reinforcement Learning [10.404992912881601]
状態過程のボラティリティが状態変数と制御変数に依存する拡散に対する連続時間線形二乗法(LQ)制御問題のクラスに対する強化学習について検討する。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Gaussian Processes with State-Dependent Noise for Stochastic Control [2.842794675894731]
力学系の残留モデル不確実性はガウス過程(GP)を用いて学習される
2つのGPは相互依存しており、反復アルゴリズムを用いて共同で学習される。
論文 参考訳(メタデータ) (2023-05-25T16:36:57Z) - Deep reinforcement learning for optimal well control in subsurface
systems with uncertain geology [0.0]
深部強化学習(DRL)に基づく一般制御政策枠組みを導入し, 地下流れにおける閉ループ決定について検討した。
DRLに基づく手法は、従来のモデルよりも頑健な最適化と比較して、NPVの15%(2Dの場合)と33%(3Dの場合)の増加をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-03-24T22:50:47Z) - Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation [12.415463205960156]
モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。
RLで発生するノイズ管理における不確実性の原因を系統的に分析する。
本稿では,2つの相補的不確実性推定手法がQ値と環境の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-01-05T15:46:06Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文 参考訳(メタデータ) (2020-02-28T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。