論文の概要: Neural Stochastic Dual Dynamic Programming
- arxiv url: http://arxiv.org/abs/2112.00874v1
- Date: Wed, 1 Dec 2021 22:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 14:33:50.174425
- Title: Neural Stochastic Dual Dynamic Programming
- Title(参考訳): ニューラル確率デュアル動的プログラミング
- Authors: Hanjun Dai, Yuan Xue, Zia Syed, Dale Schuurmans, Bo Dai
- Abstract要約: 我々は、問題インスタンスを断片的線形値関数にマッピングすることを学ぶトレーニング可能なニューラルモデルを導入する。
$nu$-SDDPは、ソリューションの品質を犠牲にすることなく、問題解決コストを大幅に削減できる。
- 参考スコア(独自算出の注目度): 99.80617899593526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic dual dynamic programming (SDDP) is a state-of-the-art method for
solving multi-stage stochastic optimization, widely used for modeling
real-world process optimization tasks. Unfortunately, SDDP has a worst-case
complexity that scales exponentially in the number of decision variables, which
severely limits applicability to only low dimensional problems. To overcome
this limitation, we extend SDDP by introducing a trainable neural model that
learns to map problem instances to a piece-wise linear value function within
intrinsic low-dimension space, which is architected specifically to interact
with a base SDDP solver, so that can accelerate optimization performance on new
instances. The proposed Neural Stochastic Dual Dynamic Programming ($\nu$-SDDP)
continually self-improves by solving successive problems. An empirical
investigation demonstrates that $\nu$-SDDP can significantly reduce problem
solving cost without sacrificing solution quality over competitors such as SDDP
and reinforcement learning algorithms, across a range of synthetic and
real-world process optimization problems.
- Abstract(参考訳): 確率的双対動的プログラミング(sddp)は、実世界のプロセス最適化タスクのモデリングに広く用いられる多段階確率的最適化を解くための最先端の手法である。
残念なことに、SDDPは決定変数の数で指数関数的にスケールする最悪の複雑性を持ち、低次元問題のみの適用性を著しく制限する。
この制限を克服するために,本研究では,問題インスタンスを本質的な低次元空間内のピースワイド線形値関数にマッピングすることを学ぶトレーニング可能なニューラルモデルを導入して,SDDPを拡張した。
提案したNeural Stochastic Dual Dynamic Programming($\nu$-SDDP)は、連続した問題を解くことで継続的に自己改善する。
実験的な調査によると、$\nu$-SDDPは、SDDPや強化学習アルゴリズムといった競合製品よりも、様々な合成および実世界のプロセス最適化問題を犠牲にすることなく、問題解決コストを大幅に削減できる。
関連論文リスト
- DIMES: A Differentiable Meta Solver for Combinatorial Optimization
Problems [41.57773395100222]
深部強化学習(DRL)モデルはNP-hard Combinatorial Optimization問題を解決する上で有望な結果を示している。
本稿では,DIMESという新しいアプローチを提案することによって,大規模最適化におけるスケーラビリティの課題に対処する。
コストのかかる自己回帰的復号法や離散解の反復的洗練に苦しむ従来のDRL法とは異なり、DIMESは候補解の基底分布をパラメータ化するためのコンパクトな連続空間を導入する。
DIMESは、トラベリングセールスマン問題や最大独立セット問題のための大規模なベンチマークデータセットにおいて、最近のDRLベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-08T23:24:37Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Efficient differentiable quadratic programming layers: an ADMM approach [0.0]
乗算器の交互方向法(ADMM)に基づく代替ネットワーク層アーキテクチャを提案する。
後方微分は、修正された固定点反復の残差写像の暗黙の微分によって行われる。
シミュレーションの結果は、中規模の問題に対してOptNet二次プログラミング層よりも約1桁高速であるADMM層の計算上の利点を示している。
論文 参考訳(メタデータ) (2021-12-14T15:25:07Z) - STRIDE along Spectrahedral Vertices for Solving Large-Scale Rank-One
Semidefinite Relaxations [27.353023427198806]
我々は、制約のない最適化問題(POP)の高次半定値プログラミング緩和を考察する。
POPから独立してSDPを解く既存のアプローチは、そのようなSDPの典型的な非エネルギー性のため、大きな問題にスケールできないか、あるいは緩やかな収束に苦しむことができない。
我々は SpecTrahedral vErtices (STRIDE) と呼ばれる新しいアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-28T18:07:16Z) - Two-Stage Stochastic Optimization via Primal-Dual Decomposition and Deep
Unrolling [86.85697555068168]
2段階のアルゴリズム最適化は、様々な工学や科学的応用において重要な役割を果たす。
特に長期変数と短期変数が制約の中で結合されている場合、アルゴリズムは効率的ではない。
PDD-SSCAが既存のソリューションよりも優れたパフォーマンスを達成できることを示します。
論文 参考訳(メタデータ) (2021-05-05T03:36:00Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z) - Simplified Swarm Optimization for Bi-Objection Active Reliability
Redundancy Allocation Problems [1.5990720051907859]
信頼性冗長性割り当て問題(RRAP)は、システム設計、開発、管理においてよく知られた問題である。
本研究では, コスト制約を新たな目標として変更することにより, 両対象RRAPを定式化する。
提案課題を解決するために,ペナルティ関数を備えた新しい簡易スワム最適化 (SSO) ,実効1型ソリューション構造,数値ベースの自己適応型新しい更新機構,制約付き非支配型ソリューション選択,および新しいpBest代替ポリシーを開発した。
論文 参考訳(メタデータ) (2020-06-17T13:15:44Z) - Partial Policy Iteration for L1-Robust Markov Decision Processes [13.555107578858307]
本稿では、ロバストなMDPの共通クラスを解くための新しい効率的なアルゴリズムについて述べる。
我々は、ロバストなMDPのための部分ポリシーイテレーション、新しい、効率的で柔軟な、一般的なポリシーイテレーションスキームを提案する。
実験結果から,提案手法は最先端手法よりも桁違いに高速であることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T19:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。