論文の概要: Deep reinforcement learning for optimal well control in subsurface
systems with uncertain geology
- arxiv url: http://arxiv.org/abs/2203.13375v1
- Date: Thu, 24 Mar 2022 22:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 00:55:12.276665
- Title: Deep reinforcement learning for optimal well control in subsurface
systems with uncertain geology
- Title(参考訳): 地質不確定な地下系における最適坑井制御のための深部補強学習
- Authors: Yusuf Nasir and Louis J. Durlofsky
- Abstract要約: 深部強化学習(DRL)に基づく一般制御政策枠組みを導入し, 地下流れにおける閉ループ決定について検討した。
DRLに基づく手法は、従来のモデルよりも頑健な最適化と比較して、NPVの15%(2Dの場合)と33%(3Dの場合)の増加をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A general control policy framework based on deep reinforcement learning (DRL)
is introduced for closed-loop decision making in subsurface flow settings.
Traditional closed-loop modeling workflows in this context involve the repeated
application of data assimilation/history matching and robust optimization
steps. Data assimilation can be particularly challenging in cases where both
the geological style (scenario) and individual model realizations are
uncertain. The closed-loop reservoir management (CLRM) problem is formulated
here as a partially observable Markov decision process, with the associated
optimization problem solved using a proximal policy optimization algorithm.
This provides a control policy that instantaneously maps flow data observed at
wells (as are available in practice) to optimal well pressure settings. The
policy is represented by a temporal convolution and gated transformer blocks.
Training is performed in a preprocessing step with an ensemble of prior
geological models, which can be drawn from multiple geological scenarios.
Example cases involving the production of oil via water injection, with both 2D
and 3D geological models, are presented. The DRL-based methodology is shown to
result in an NPV increase of 15% (for the 2D cases) and 33% (3D cases) relative
to robust optimization over prior models, and to an average improvement of 4%
in NPV relative to traditional CLRM. The solutions from the control policy are
found to be comparable to those from deterministic optimization, in which the
geological model is assumed to be known, even when multiple geological
scenarios are considered. The control policy approach results in a 76% decrease
in computational cost relative to traditional CLRM with the algorithms and
parameter settings considered in this work.
- Abstract(参考訳): 深層強化学習(drl)に基づく一般制御政策フレームワークを導入し,地下流れ設定における閉ループ決定を行う。
従来のクローズドループモデリングワークフローでは、データの同化/履歴マッチングと堅牢な最適化ステップが繰り返し適用されます。
データ同化は、地質学的スタイル(scenario)と個々のモデル実現が不確実な場合に特に困難である。
閉ループ貯水池管理 (clrm) 問題は, 部分可観測マルコフ決定過程として定式化され, 関連する最適化問題は近位政策最適化アルゴリズムを用いて解かれる。
これは、(実際に利用可能なように)井戸で観測されたフローデータを最適の圧力設定に即時にマッピングする制御ポリシーを提供する。
ポリシーは時間的畳み込みとゲートトランスフォーマーブロックで表される。
トレーニングは、複数の地質学的シナリオから引き出すことができる、事前地質モデルのアンサンブルによる前処理ステップで行われる。
2次元および3次元の地質モデルを用いた水注入による石油生産の例を示す。
DRLをベースとした手法では,従来のCLRMに比べてNPVが15%(2Dの場合),33%(3Dの場合)に向上し,NPVが4%向上することが示されている。
制御ポリシからの解は、複数の地質シナリオが考慮されたとしても、地質モデルが知られていると仮定される決定論的最適化の解に匹敵する。
制御ポリシアプローチは,本研究で考慮したアルゴリズムとパラメータ設定により,従来のCLRMと比較して計算コストを76%削減する。
関連論文リスト
- Sublinear Regret for An Actor-Critic Algorithm in Continuous-Time Linear-Quadratic Reinforcement Learning [10.404992912881601]
状態過程のボラティリティが状態変数と制御変数に依存する拡散に対する連続時間線形二乗法(LQ)制御問題のクラスに対する強化学習について検討する。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Neural ODEs as Feedback Policies for Nonlinear Optimal Control [1.8514606155611764]
ニューラルネットワークをパラメータ化した微分方程式として連続時間力学をモデル化するために、ニューラル常微分方程式(ニューラルODE)を用いる。
本稿では,一般非線形最適制御問題の解法としてニューラル・オードとして提案するニューラル・コントロール・ポリシーを提案する。
論文 参考訳(メタデータ) (2022-10-20T13:19:26Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Stochastic optimal well control in subsurface reservoirs using
reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文 参考訳(メタデータ) (2022-07-07T17:34:23Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Single-step deep reinforcement learning for open-loop control of laminar
and turbulent flows [0.0]
本研究は,流体力学系の最適化と制御を支援するための深部強化学習(DRL)技術の能力を評価する。
原型ポリシー最適化(PPO)アルゴリズムの新たな"退化"バージョンを組み合わせることで、学習エピソード当たり1回だけシステムを最適化するニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-06-04T16:11:26Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。