論文の概要: Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty
- arxiv url: http://arxiv.org/abs/2405.14973v1
- Date: Thu, 23 May 2024 18:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:27:22.010499
- Title: Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty
- Title(参考訳): 不確実性下における順序決定のための2段階ML誘導決定規則
- Authors: Andrew Rosemberg, Alexandre Street, Davi M. Valladão, Pascal Van Hentenryck,
- Abstract要約: SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
- 参考スコア(独自算出の注目度): 55.06411438416805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sequential Decision Making under Uncertainty (SDMU) is ubiquitous in many domains such as energy, finance, and supply chains. Some SDMU applications are naturally modeled as Multistage Stochastic Optimization Problems (MSPs), but the resulting optimizations are notoriously challenging from a computational standpoint. Under assumptions of convexity and stage-wise independence of the uncertainty, the resulting optimization can be solved efficiently using Stochastic Dual Dynamic Programming (SDDP). Two-stage Linear Decision Rules (TS-LDRs) have been proposed to solve MSPs without the stage-wise independence assumption. TS-LDRs are computationally tractable, but using a policy that is a linear function of past observations is typically not suitable for non-convex environments arising, for example, in energy systems. This paper introduces a novel approach, Two-Stage General Decision Rules (TS-GDR), to generalize the policy space beyond linear functions, making them suitable for non-convex environments. TS-GDR is a self-supervised learning algorithm that trains the nonlinear decision rules using stochastic gradient descent (SGD); its forward passes solve the policy implementation optimization problems, and the backward passes leverage duality theory to obtain closed-form gradients. The effectiveness of TS-GDR is demonstrated through an instantiation using Deep Recurrent Neural Networks named Two-Stage Deep Decision Rules (TS-DDR). The method inherits the flexibility and computational performance of Deep Learning methodologies to solve SDMU problems generally tackled through large-scale optimization techniques. Applied to the Long-Term Hydrothermal Dispatch (LTHD) problem using actual power system data from Bolivia, the TS-DDR not only enhances solution quality but also significantly reduces computation times by several orders of magnitude.
- Abstract(参考訳): SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUアプリケーションは、自然にマルチステージ確率最適化問題 (MSPs) としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
不確実性の凸性と段階的な独立性の仮定の下で、結果の最適化は確率的デュアル・ダイナミック・プログラミング(SDDP)を用いて効率的に解ける。
2段階線形決定規則(TS-LDR)は、段階的な独立性の仮定なしでMSPを解くために提案されている。
TS-LDRは計算処理が可能であるが、過去の観測の線形関数であるポリシーを用いることは、例えばエネルギーシステムにおいて生じる非凸環境には適さない。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数以外の政策空間を一般化し,非凸環境に適合させる手法を提案する。
TS-GDRは、確率勾配勾配(SGD)を用いて非線形決定規則を訓練する自己教師付き学習アルゴリズムであり、その前方通過はポリシー実装最適化問題を解くとともに、後方通過は双対性理論を利用して閉形式勾配を得る。
TS-GDRの有効性は、TS-DDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
この手法はディープラーニング手法の柔軟性と計算性能を継承し、大規模な最適化手法によって取り組んだSDMU問題を解く。
ボリビアの実際の電力システムデータを用いた長期熱水分散(LTHD)問題に適用すると、TS-DDRはソリューションの品質を向上するだけでなく、数桁の計算時間を著しく短縮する。
関連論文リスト
- Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization [10.465789490644031]
我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。
オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - Sample and Oracle Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functions [10.225358400539719]
本稿では,線形作用が特徴写像に一般化される決定法(MDP)の効率的な強化アルゴリズムを提案する。
具体的には、この設定において、最適に近いポリシーを効率的に見つける新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-07T14:38:05Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods [0.40964539027092917]
Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。
実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。
本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
論文 参考訳(メタデータ) (2023-10-04T09:21:01Z) - An Efficient Learning-Based Solver for Two-Stage DC Optimal Power Flow with Feasibility Guarantees [4.029937264494929]
本稿では,より効率的かつ最適な方法で2段階問題の解法を提案する。
ゲージマップと呼ばれるテクニックが学習アーキテクチャ設計に組み込まれ、学習したソリューションがネットワークの制約に対して実現可能であることを保証する。
論文 参考訳(メタデータ) (2023-04-03T22:56:08Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。