論文の概要: Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning
- arxiv url: http://arxiv.org/abs/2110.03146v1
- Date: Thu, 7 Oct 2021 02:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:48:59.724324
- Title: Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning
- Title(参考訳): 正規化線形決定規則による多段階確率線形計画解法:熱水ディスパッチ計画への適用
- Authors: Felipe Nazare and Alexandre Street
- Abstract要約: AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The solution of multistage stochastic linear problems (MSLP) represents a
challenge for many applications. Long-term hydrothermal dispatch planning
(LHDP) materializes this challenge in a real-world problem that affects
electricity markets, economies, and natural resources worldwide. No closed-form
solutions are available for MSLP and the definition of non-anticipative
policies with high-quality out-of-sample performance is crucial. Linear
decision rules (LDR) provide an interesting simulation-based framework for
finding high-quality policies to MSLP through two-stage stochastic models. In
practical applications, however, the number of parameters to be estimated when
using an LDR may be close or higher than the number of scenarios, thereby
generating an in-sample overfit and poor performances in out-of-sample
simulations. In this paper, we propose a novel regularization scheme for LDR
based on the AdaLASSO (adaptive least absolute shrinkage and selection
operator). The goal is to use the parsimony principle as largely studied in
high-dimensional linear regression models to obtain better out-of-sample
performance for an LDR applied to MSLP. Computational experiments show that the
overfit threat is non-negligible when using the classical non-regularized LDR
to solve MSLP. For the LHDP problem, our analysis highlights the following
benefits of the proposed framework in comparison to the non-regularized
benchmark: 1) significant reductions in the number of non-zero coefficients
(model parsimony), 2) substantial cost reductions in out-of-sample evaluations,
and 3) improved spot-price profiles.
- Abstract(参考訳): 多段階確率線形問題(MSLP)の解は、多くのアプリケーションにとって課題である。
lhdp(long-term hydrothermal dispatch planning)は、世界中の電力市場、経済、天然資源に影響を与える現実世界の問題において、この課題を実現する。
MSLPにはクローズドフォームのソリューションは提供されておらず、高品質なアウト・オブ・サンプル性能を備えた非予測ポリシーの定義が不可欠である。
線形決定規則(LDR)は、2段階確率モデルによりMSLPの高品質なポリシーを見つけるための興味深いシミュレーションベースのフレームワークを提供する。
しかし、現実的な応用では、LDRを使用する場合のパラメータの数はシナリオの数よりも近いか高い可能性があるため、サンプル内オーバーフィットとサンプル外シミュレーションの性能の低下が生じる。
本稿では,AdaLASSO (Adaptive least absolute shrinkage and selection operator) に基づくLDRの新しい正規化手法を提案する。
目的は、高次元線形回帰モデルにおいて主に研究されているパシモニー原理を用いて、MSLPに適用されたLDRの性能を改善することである。
計算実験により、古典的非正規化ldrを用いてmslpを解く場合、過剰フィットの脅威は無視できることが示された。
lhdp問題に対して,本解析では,非正規化ベンチマークと比較して,提案フレームワークの利点を浮き彫りにする。
1)非ゼロ係数の数(モデルパーシモニー)の大幅な減少
2【サンプル外評価における実質的コスト削減】
3) スポット価格プロファイルの改善。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - A Moreau Envelope Approach for LQR Meta-Policy Estimation [0.7311194870168775]
離散時間線形時間不変不確実な力学系における線形二次レギュレータ(LQR)のポリシー推定問題について検討する。
本稿では,不確実なシステムの有限な実現法から構築した代用LQRコストを提案し,新しい実現法に適応可能なメタポリティクスを効率的に定義する。
論文 参考訳(メタデータ) (2024-03-26T04:02:09Z) - Value-Biased Maximum Likelihood Estimation for Model-based Reinforcement
Learning in Discounted Linear MDPs [16.006893624836554]
本稿では,VBMLE (Value-Biased Maximum Likelihood Estimation) のレンズによる線形MDPの解法を提案する。
VBMLEは、各時間ステップで1つの最適化問題だけを解決する必要があるため、計算的により効率的である。
後悔する解析では、線形MDPにおけるMLEの一般収束結果が、新しいスーパーマーチンゲール構造を通して提供される。
論文 参考訳(メタデータ) (2023-10-17T18:27:27Z) - Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。
本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。
両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:52:44Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。