論文の概要: Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning
- arxiv url: http://arxiv.org/abs/2110.03146v1
- Date: Thu, 7 Oct 2021 02:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:48:59.724324
- Title: Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning
- Title(参考訳): 正規化線形決定規則による多段階確率線形計画解法:熱水ディスパッチ計画への適用
- Authors: Felipe Nazare and Alexandre Street
- Abstract要約: AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The solution of multistage stochastic linear problems (MSLP) represents a
challenge for many applications. Long-term hydrothermal dispatch planning
(LHDP) materializes this challenge in a real-world problem that affects
electricity markets, economies, and natural resources worldwide. No closed-form
solutions are available for MSLP and the definition of non-anticipative
policies with high-quality out-of-sample performance is crucial. Linear
decision rules (LDR) provide an interesting simulation-based framework for
finding high-quality policies to MSLP through two-stage stochastic models. In
practical applications, however, the number of parameters to be estimated when
using an LDR may be close or higher than the number of scenarios, thereby
generating an in-sample overfit and poor performances in out-of-sample
simulations. In this paper, we propose a novel regularization scheme for LDR
based on the AdaLASSO (adaptive least absolute shrinkage and selection
operator). The goal is to use the parsimony principle as largely studied in
high-dimensional linear regression models to obtain better out-of-sample
performance for an LDR applied to MSLP. Computational experiments show that the
overfit threat is non-negligible when using the classical non-regularized LDR
to solve MSLP. For the LHDP problem, our analysis highlights the following
benefits of the proposed framework in comparison to the non-regularized
benchmark: 1) significant reductions in the number of non-zero coefficients
(model parsimony), 2) substantial cost reductions in out-of-sample evaluations,
and 3) improved spot-price profiles.
- Abstract(参考訳): 多段階確率線形問題(MSLP)の解は、多くのアプリケーションにとって課題である。
lhdp(long-term hydrothermal dispatch planning)は、世界中の電力市場、経済、天然資源に影響を与える現実世界の問題において、この課題を実現する。
MSLPにはクローズドフォームのソリューションは提供されておらず、高品質なアウト・オブ・サンプル性能を備えた非予測ポリシーの定義が不可欠である。
線形決定規則(LDR)は、2段階確率モデルによりMSLPの高品質なポリシーを見つけるための興味深いシミュレーションベースのフレームワークを提供する。
しかし、現実的な応用では、LDRを使用する場合のパラメータの数はシナリオの数よりも近いか高い可能性があるため、サンプル内オーバーフィットとサンプル外シミュレーションの性能の低下が生じる。
本稿では,AdaLASSO (Adaptive least absolute shrinkage and selection operator) に基づくLDRの新しい正規化手法を提案する。
目的は、高次元線形回帰モデルにおいて主に研究されているパシモニー原理を用いて、MSLPに適用されたLDRの性能を改善することである。
計算実験により、古典的非正規化ldrを用いてmslpを解く場合、過剰フィットの脅威は無視できることが示された。
lhdp問題に対して,本解析では,非正規化ベンチマークと比較して,提案フレームワークの利点を浮き彫りにする。
1)非ゼロ係数の数(モデルパーシモニー)の大幅な減少
2【サンプル外評価における実質的コスト削減】
3) スポット価格プロファイルの改善。
関連論文リスト
- Value-Biased Maximum Likelihood Estimation for Model-based Reinforcement
Learning in Discounted Linear MDPs [16.006893624836554]
本稿では,VBMLE (Value-Biased Maximum Likelihood Estimation) のレンズによる線形MDPの解法を提案する。
VBMLEは、各時間ステップで1つの最適化問題だけを解決する必要があるため、計算的により効率的である。
後悔する解析では、線形MDPにおけるMLEの一般収束結果が、新しいスーパーマーチンゲール構造を通して提供される。
論文 参考訳(メタデータ) (2023-10-17T18:27:27Z) - Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。
本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。
両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:52:44Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Structured Policy Iteration for Linear Quadratic Regulator [40.52288246664592]
構造化線形ポリシーを導出する手法であるLQRに対して,textitStructured Policy Iteration (S-PI)を導入する。
このような(ブロック)間隔や低ランクの構造化ポリシーは、標準のLQRポリシーよりも大きな利点がある。
既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明している。
論文 参考訳(メタデータ) (2020-07-13T06:03:15Z) - Self-guided Approximate Linear Programs [13.11602610569461]
本稿では,安価なサンプリングによって得られたランダム基底関数を組み込んだ近似線形プログラム(ALP)の自己誘導配列を提案する。
これらの望ましい実装と理論的特性は、在庫管理とオプションの価格設定に関する数値的な結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2020-01-09T01:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。