論文の概要: Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty
- arxiv url: http://arxiv.org/abs/2405.14973v1
- Date: Thu, 23 May 2024 18:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:27:22.010499
- Title: Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty
- Title(参考訳): 不確実性下における順序決定のための2段階ML誘導決定規則
- Authors: Andrew Rosemberg, Alexandre Street, Davi M. Valladão, Pascal Van Hentenryck,
- Abstract要約: SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
- 参考スコア(独自算出の注目度): 55.06411438416805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sequential Decision Making under Uncertainty (SDMU) is ubiquitous in many domains such as energy, finance, and supply chains. Some SDMU applications are naturally modeled as Multistage Stochastic Optimization Problems (MSPs), but the resulting optimizations are notoriously challenging from a computational standpoint. Under assumptions of convexity and stage-wise independence of the uncertainty, the resulting optimization can be solved efficiently using Stochastic Dual Dynamic Programming (SDDP). Two-stage Linear Decision Rules (TS-LDRs) have been proposed to solve MSPs without the stage-wise independence assumption. TS-LDRs are computationally tractable, but using a policy that is a linear function of past observations is typically not suitable for non-convex environments arising, for example, in energy systems. This paper introduces a novel approach, Two-Stage General Decision Rules (TS-GDR), to generalize the policy space beyond linear functions, making them suitable for non-convex environments. TS-GDR is a self-supervised learning algorithm that trains the nonlinear decision rules using stochastic gradient descent (SGD); its forward passes solve the policy implementation optimization problems, and the backward passes leverage duality theory to obtain closed-form gradients. The effectiveness of TS-GDR is demonstrated through an instantiation using Deep Recurrent Neural Networks named Two-Stage Deep Decision Rules (TS-DDR). The method inherits the flexibility and computational performance of Deep Learning methodologies to solve SDMU problems generally tackled through large-scale optimization techniques. Applied to the Long-Term Hydrothermal Dispatch (LTHD) problem using actual power system data from Bolivia, the TS-DDR not only enhances solution quality but also significantly reduces computation times by several orders of magnitude.
- Abstract(参考訳): SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUアプリケーションは、自然にマルチステージ確率最適化問題 (MSPs) としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
不確実性の凸性と段階的な独立性の仮定の下で、結果の最適化は確率的デュアル・ダイナミック・プログラミング(SDDP)を用いて効率的に解ける。
2段階線形決定規則(TS-LDR)は、段階的な独立性の仮定なしでMSPを解くために提案されている。
TS-LDRは計算処理が可能であるが、過去の観測の線形関数であるポリシーを用いることは、例えばエネルギーシステムにおいて生じる非凸環境には適さない。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数以外の政策空間を一般化し,非凸環境に適合させる手法を提案する。
TS-GDRは、確率勾配勾配(SGD)を用いて非線形決定規則を訓練する自己教師付き学習アルゴリズムであり、その前方通過はポリシー実装最適化問題を解くとともに、後方通過は双対性理論を利用して閉形式勾配を得る。
TS-GDRの有効性は、TS-DDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
この手法はディープラーニング手法の柔軟性と計算性能を継承し、大規模な最適化手法によって取り組んだSDMU問題を解く。
ボリビアの実際の電力システムデータを用いた長期熱水分散(LTHD)問題に適用すると、TS-DDRはソリューションの品質を向上するだけでなく、数桁の計算時間を著しく短縮する。
関連論文リスト
- A Simulation-Free Deep Learning Approach to Stochastic Optimal Control [12.699529713351287]
最適制御(SOC)における一般問題の解法のためのシミュレーションフリーアルゴリズムを提案する。
既存の手法とは異なり、我々の手法は随伴問題の解を必要としない。
論文 参考訳(メタデータ) (2024-10-07T16:16:53Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Optimal Sequential Decision-Making in Geosteering: A Reinforcement
Learning Approach [0.0]
ジオステアリングと呼ばれる掘削プロセス全体の軌道調整決定は、その後の選択や情報収集に影響を与える。
本研究では,決定環境から直接学習するモデルフリー強化学習(RL)手法であるDeep Q-Network(DQN)手法を用いる。
これまでに2つの合成ジオステアリングシナリオに対して,RLは準最適ADPに匹敵する高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2023-10-07T10:49:30Z) - Neural Stochastic Dual Dynamic Programming [99.80617899593526]
我々は、問題インスタンスを断片的線形値関数にマッピングすることを学ぶトレーニング可能なニューラルモデルを導入する。
$nu$-SDDPは、ソリューションの品質を犠牲にすることなく、問題解決コストを大幅に削減できる。
論文 参考訳(メタデータ) (2021-12-01T22:55:23Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Optimal Operation of Power Systems with Energy Storage under
Uncertainty: A Scenario-based Method with Strategic Sampling [0.0]
エネルギー貯蔵(ES)、断続再生可能エネルギー、制御不能電力負荷の多周期ダイナミクスは、電力系統運用(PSO)の最適化を困難にしている。
不確実性下での多周期最適PSOは、確率制約付き確率最適化(CCO)モデルパラダイムを用いて定式化される。
本稿では,この難解なCCO問題に対する新しい解法を提案する。
論文 参考訳(メタデータ) (2021-07-21T11:21:50Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。