Fugu-MT 論文翻訳(概要): Solving Multistage Stochastic Linear Programming via Regularized Linear Decision Rules: An Application to Hydrothermal Dispatch Planning

論文の概要: Solving Multistage Stochastic Linear Programming via Regularized Linear Decision Rules: An Application to Hydrothermal Dispatch Planning

arxiv url: http://arxiv.org/abs/2110.03146v1
Date: Thu, 7 Oct 2021 02:36:14 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-08 15:48:59.724324
Title: Solving Multistage Stochastic Linear Programming via Regularized Linear Decision Rules: An Application to Hydrothermal Dispatch Planning
Title（参考訳）: 正規化線形決定規則による多段階確率線形計画解法:熱水ディスパッチ計画への適用
Authors: Felipe Nazare and Alexandre Street
Abstract要約: AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。 LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
参考スコア（独自算出の注目度）: 77.34726150561087
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The solution of multistage stochastic linear problems (MSLP) represents a challenge for many applications. Long-term hydrothermal dispatch planning (LHDP) materializes this challenge in a real-world problem that affects electricity markets, economies, and natural resources worldwide. No closed-form solutions are available for MSLP and the definition of non-anticipative policies with high-quality out-of-sample performance is crucial. Linear decision rules (LDR) provide an interesting simulation-based framework for finding high-quality policies to MSLP through two-stage stochastic models. In practical applications, however, the number of parameters to be estimated when using an LDR may be close or higher than the number of scenarios, thereby generating an in-sample overfit and poor performances in out-of-sample simulations. In this paper, we propose a novel regularization scheme for LDR based on the AdaLASSO (adaptive least absolute shrinkage and selection operator). The goal is to use the parsimony principle as largely studied in high-dimensional linear regression models to obtain better out-of-sample performance for an LDR applied to MSLP. Computational experiments show that the overfit threat is non-negligible when using the classical non-regularized LDR to solve MSLP. For the LHDP problem, our analysis highlights the following benefits of the proposed framework in comparison to the non-regularized benchmark: 1) significant reductions in the number of non-zero coefficients (model parsimony), 2) substantial cost reductions in out-of-sample evaluations, and 3) improved spot-price profiles.
Abstract（参考訳）: 多段階確率線形問題(MSLP)の解は、多くのアプリケーションにとって課題である。 lhdp(long-term hydrothermal dispatch planning)は、世界中の電力市場、経済、天然資源に影響を与える現実世界の問題において、この課題を実現する。 MSLPにはクローズドフォームのソリューションは提供されておらず、高品質なアウト・オブ・サンプル性能を備えた非予測ポリシーの定義が不可欠である。線形決定規則(LDR)は、2段階確率モデルによりMSLPの高品質なポリシーを見つけるための興味深いシミュレーションベースのフレームワークを提供する。しかし、現実的な応用では、LDRを使用する場合のパラメータの数はシナリオの数よりも近いか高い可能性があるため、サンプル内オーバーフィットとサンプル外シミュレーションの性能の低下が生じる。本稿では,AdaLASSO (Adaptive least absolute shrinkage and selection operator) に基づくLDRの新しい正規化手法を提案する。目的は、高次元線形回帰モデルにおいて主に研究されているパシモニー原理を用いて、MSLPに適用されたLDRの性能を改善することである。計算実験により、古典的非正規化ldrを用いてmslpを解く場合、過剰フィットの脅威は無視できることが示された。 lhdp問題に対して,本解析では,非正規化ベンチマークと比較して,提案フレームワークの利点を浮き彫りにする。 1)非ゼロ係数の数(モデルパーシモニー)の大幅な減少 2【サンプル外評価における実質的コスト削減】 3) スポット価格プロファイルの改善。

関連論文リスト

Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
RL-PINNs: Reinforcement Learning-Driven Adaptive Sampling for Efficient Training of PINNs [0.0]
物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)を解くための強力なフレームワークとして登場した。彼らのパフォーマンスは、トレーニングポイントの選択に使われる戦略に大きく依存しています。 RL-PINN(RL-PINN)は,1ラウンドのサンプリングだけで効率的なトレーニングを可能にする強化学習駆動型適応サンプリングフレームワークである。
論文参考訳（メタデータ） (2025-04-17T13:50:55Z)
Stochastic Optimization with Optimal Importance Sampling [49.484190237840714]
本稿では,両者の時間的分離を必要とせずに,意思決定とIS分布を共同で更新する反復型アルゴリズムを提案する。本手法は,IS分布系に対する目的的,軽度な仮定の凸性の下で,最小の変数分散を達成し,大域収束を保証する。
論文参考訳（メタデータ） (2025-04-04T16:10:18Z)
Solving Finite-Horizon MDPs via Low-Rank Tensors [9.072279909866845]
有限水平マルコフ決定過程(MDP)における最適政策の学習問題について検討する。有限水平 MDP では、ポリシーと従って値関数 (VF) は定常ではない。本稿では,有限ホライゾン MDP の VF を低ランクテンソルとしてモデル化することを提案する。
論文参考訳（メタデータ） (2025-01-17T23:10:50Z)
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-09-25T22:20:11Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
A Moreau Envelope Approach for LQR Meta-Policy Estimation [0.7311194870168775]
離散時間線形時間不変不確実な力学系における線形二次レギュレータ(LQR)のポリシー推定問題について検討する。本稿では,不確実なシステムの有限な実現法から構築した代用LQRコストを提案し,新しい実現法に適応可能なメタポリティクスを効率的に定義する。
論文参考訳（メタデータ） (2024-03-26T04:02:09Z)
Value-Biased Maximum Likelihood Estimation for Model-based Reinforcement Learning in Discounted Linear MDPs [16.006893624836554]
本稿では,VBMLE (Value-Biased Maximum Likelihood Estimation) のレンズによる線形MDPの解法を提案する。 VBMLEは、各時間ステップで1つの最適化問題だけを解決する必要があるため、計算的により効率的である。後悔する解析では、線形MDPにおけるMLEの一般収束結果が、新しいスーパーマーチンゲール構造を通して提供される。
論文参考訳（メタデータ） (2023-10-17T18:27:27Z)
Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文参考訳（メタデータ） (2023-08-10T09:52:44Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
Revisiting the Linear-Programming Framework for Offline RL with General Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文参考訳（メタデータ） (2022-12-28T15:28:12Z)
A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。 PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文参考訳（メタデータ） (2021-07-23T19:38:17Z)
Structured Policy Iteration for Linear Quadratic Regulator [40.52288246664592]
構造化線形ポリシーを導出する手法であるLQRに対して,textitStructured Policy Iteration (S-PI)を導入する。このような(ブロック)間隔や低ランクの構造化ポリシーは、標準のLQRポリシーよりも大きな利点がある。既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明している。
論文参考訳（メタデータ） (2020-07-13T06:03:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。