論文の概要: Multi-Asset Closed-Loop Reservoir Management Using Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2207.10376v1
- Date: Thu, 21 Jul 2022 09:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:45:56.964303
- Title: Multi-Asset Closed-Loop Reservoir Management Using Deep Reinforcement
Learning
- Title(参考訳): 深部強化学習を用いたマルチアセットクローズドループ貯留層管理
- Authors: Yusuf Nasir, Louis J. Durlofsky
- Abstract要約: 我々は、様々な数の井戸を持つ複数の資産のためのCLRMフレームワークを開発する。
我々は、深層強化学習を用いて、考慮すべきすべての資産に適用可能な単一のグローバルコントロールポリシーを訓練する。
数値実験により、グローバルコントロールポリシは、各アセットごとに個別に訓練されたコントロールポリシとほぼ同一の2次元および3次元のケースに対して、客観的関数値を提供することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Closed-loop reservoir management (CLRM), in which history matching and
production optimization are performed multiple times over the life of an asset,
can provide significant improvement in the specified objective. These
procedures are computationally expensive due to the large number of flow
simulations required for data assimilation and optimization. Existing CLRM
procedures are applied asset by asset, without utilizing information that could
be useful over a range assets. Here, we develop a CLRM framework for multiple
assets with varying numbers of wells. We use deep reinforcement learning to
train a single global control policy that is applicable for all assets
considered. The new framework is an extension of a recently introduced control
policy methodology for individual assets. Embedding layers are incorporated
into the representation to handle the different numbers of decision variables
that arise for the different assets. Because the global control policy learns a
unified representation of useful features from multiple assets, it is less
expensive to construct than asset-by-asset training (we observe about 3x
speedup in our examples). The production optimization problem includes a
relative-change constraint on the well settings, which renders the results
suitable for practical use. We apply the multi-asset CLRM framework to 2D and
3D water-flooding examples. In both cases, four assets with different well
counts, well configurations, and geostatistical descriptions are considered.
Numerical experiments demonstrate that the global control policy provides
objective function values, for both the 2D and 3D cases, that are nearly
identical to those from control policies trained individually for each asset.
This promising finding suggests that multi-asset CLRM may indeed represent a
viable practical strategy.
- Abstract(参考訳): クローズドループ貯水池管理(clrm)は、資産の存続期間に複数回にわたって履歴マッチングと生産最適化を行い、指定された目的を著しく改善することができる。
これらの手順は、データ同化と最適化に必要な大量のフローシミュレーションのために計算コストがかかる。
既存のclrm手続きは、資産ごとに適用される資産であり、範囲の資産よりも有用な情報を利用することはない。
本稿では,様々な数の井戸を持つ複数の資産を対象としたCLRMフレームワークを開発する。
我々は、深層強化学習を用いて、考慮すべきすべての資産に適用可能な単一のグローバルコントロールポリシーを訓練する。
新しいフレームワークは、最近導入された個々の資産に対する制御ポリシー方法論の拡張である。
埋め込み層は、異なる資産のために生じる異なる数の決定変数を処理するために表現に組み込まれます。
グローバルコントロールポリシは,複数の資産から有用な特徴の統一表現を学習するため,アセット・バイ・アセット・トレーニングよりも建設コストが低い(例では約3倍のスピードアップ)。
生産最適化問題には、ウェル設定に対する相対的な変更制約が含まれており、実際の使用に適した結果が得られる。
マルチアセストCLRMフレームワークを2次元および3次元水流の例に適用する。
いずれの場合も、井戸数、井戸構成、地政学的記述の異なる4つの資産が考慮される。
数値実験により、グローバルコントロールポリシは、各アセットごとに個別に訓練されたコントロールポリシとほぼ同一の2次元および3次元のケースに対して、客観的関数値を提供することが示された。
この有望な発見は、マルチアセスメントCLRMが実際に実行可能な実用戦略である可能性を示唆している。
関連論文リスト
- Autoregressive Policy Optimization for Constrained Allocation Tasks [4.316765170255551]
本稿では,各エンティティのアロケーションを逐次サンプリングする自己回帰プロセスに基づく制約付きアロケーションタスクの新しい手法を提案する。
さらに, 逐次サンプリングによる初期バイアスに対処する新しい脱バイアス機構を提案する。
論文 参考訳(メタデータ) (2024-09-27T13:27:15Z) - Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Multi-Objective Coordination Graphs for the Expected Scalarised Returns
with Generative Flow Models [2.7648976108201815]
現実世界の問題を解決する鍵は、エージェント間の疎結合構造を利用することである。
風力発電の制御においては、電力の最大化とシステムコンポーネントのストレスの最小化の間にトレードオフが存在する。
エージェント間の疎結合を多目的協調グラフ(MO-CoG)としてモデル化する。
論文 参考訳(メタデータ) (2022-07-01T12:10:15Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement
Learning [22.889059874754242]
同じタスクから複数のレベル/シーン/条件を持つ環境において、深層強化学習エージェントを訓練することは、多くのアプリケーションにとって欠かせないものとなっている。
本研究では,複数のMDP環境に対する動的値推定(DVE)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T17:56:08Z) - A General Framework on Enhancing Portfolio Management with Reinforcement
Learning [3.6985496077087743]
ポートフォリオマネジメントは、リスクプロファイルに対する望ましいリターンを満たすため、金融商品全体の資金と資産の継続的な再配置を懸念している。
深層強化学習(RL)はポートフォリオ管理への関心が高まり、RLエージェントは資産配分プロセスを最適化するために財務データに基づいて訓練されている。
本稿では,資産管理のための一般的なRLフレームワークを提案する。
論文 参考訳(メタデータ) (2019-11-26T23:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。