論文の概要: Fill-and-Spill: Deep Reinforcement Learning Policy Gradient Methods for
Reservoir Operation Decision and Control
- arxiv url: http://arxiv.org/abs/2403.04195v1
- Date: Thu, 7 Mar 2024 03:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:13:20.933456
- Title: Fill-and-Spill: Deep Reinforcement Learning Policy Gradient Methods for
Reservoir Operation Decision and Control
- Title(参考訳): fill-and-spill: 貯留層操作決定と制御のための深層強化学習政策勾配法
- Authors: Sadegh Sadeghi Tabas, Vidya Samadi
- Abstract要約: 次元の計算」とは、与えられた精度のレベルで任意の関数を推定するために必要なサンプルの数が指数関数的に増加することを意味する。
本研究は, DDPG(Deep Deterministic Policy Gradients), Twin Delayed DDPG(TD3), Soft Actor-Critic(SAC18, SAC)の2種類の新しいDRL連続反応法(PGM)について検討した最初の試みである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Changes in demand, various hydrological inputs, and environmental stressors
are among the issues that water managers and policymakers face on a regular
basis. These concerns have sparked interest in applying different techniques to
determine reservoir operation policy decisions. As the resolution of the
analysis increases, it becomes more difficult to effectively represent a
real-world system using traditional methods such as Dynamic Programming (DP)
and Stochastic Dynamic Programming (SDP) for determining the best reservoir
operation policy. One of the challenges is the "curse of dimensionality," which
means the number of samples needed to estimate an arbitrary function with a
given level of accuracy grows exponentially with respect to the number of input
variables (i.e., dimensionality) of the function. Deep Reinforcement Learning
(DRL) is an intelligent approach to overcome the curses of stochastic
optimization problems for reservoir operation policy decisions. To our
knowledge, this study is the first attempt that examine various novel DRL
continuous-action policy gradient methods (PGMs), including Deep Deterministic
Policy Gradients (DDPG), Twin Delayed DDPG (TD3), and two different versions of
Soft Actor-Critic (SAC18 and SAC19) for optimizing reservoir operation policy.
In this study, multiple DRL techniques were implemented in order to find the
optimal operation policy of Folsom Reservoir in California, USA. The reservoir
system supplies agricultural, municipal, hydropower, and environmental flow
demands and flood control operations to the City of Sacramento. Analysis
suggests that the TD3 and SAC are robust to meet the Folsom Reservoir's demands
and optimize reservoir operation policies.
- Abstract(参考訳): 水道管理者や政策立案者が定期的に直面する課題は、需要の変化、様々な水文入力、環境ストレス要因である。
これらの懸念は、貯水池の運営方針の決定に異なる手法を適用することへの関心を招いた。
解析の解決が進むにつれて、最適な貯水池運用方針を決定するために、動的プログラミング(DP)や確率動的プログラミング(SDP)といった従来の手法を用いて、現実のシステムを効果的に表現することがより困難になる。
課題の1つは「次元の曲線」であり、与えられた精度で任意の関数を推定するのに必要なサンプル数が、関数の入力変数(すなわち次元)の数に対して指数関数的に増加することを意味する。
深層強化学習(drl)は,貯水池の運用方針決定における確率的最適化問題の呪いを克服するためのインテリジェントなアプローチである。
本研究は, 深層決定政策勾配法 (DDPG) , Twin Delayed DDPG (TD3) , SAC18 と SAC19 の2種類のソフト・アクター・クライブ法 (SAC19) など, 様々な新しいDRL連続行動政策勾配法 (PGM) について検討した最初の試みである。
本研究では,米国カリフォルニア州のFolsom Reservoirの最適運用方針を明らかにするために,複数のDRL手法を実装した。
この貯水池システムはサクラメント市に農業、自治体、水力、および環境負荷と洪水制御の操作を供給している。
分析によると、TD3とSACはフォルソム貯水池の要求を満たし、貯水池の運用方針を最適化するのに堅牢である。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Truly Deterministic Policy Optimization [3.07015565161719]
本稿では,探索的ノイズ注入を回避し,決定論的景観に対するポリシー探索を行う政策勾配法を提案する。
状態遷移モデルとポリシの両方が決定論的であれば,正確な利点推定を計算可能であることを示す。
論文 参考訳(メタデータ) (2022-05-30T18:49:33Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Deep reinforcement learning for optimal well control in subsurface
systems with uncertain geology [0.0]
深部強化学習(DRL)に基づく一般制御政策枠組みを導入し, 地下流れにおける閉ループ決定について検討した。
DRLに基づく手法は、従来のモデルよりも頑健な最適化と比較して、NPVの15%(2Dの場合)と33%(3Dの場合)の増加をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-03-24T22:50:47Z) - Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment [1.5229257192293197]
非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
論文 参考訳(メタデータ) (2022-03-24T21:41:13Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。