論文の概要: Data-driven Piecewise Affine Decision Rules for Stochastic Programming
with Covariate Information
- arxiv url: http://arxiv.org/abs/2304.13646v3
- Date: Wed, 20 Dec 2023 06:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 19:26:21.183694
- Title: Data-driven Piecewise Affine Decision Rules for Stochastic Programming
with Covariate Information
- Title(参考訳): 共変量情報を用いた確率計画のためのデータ駆動型近似決定規則
- Authors: Yiyang Zhang, Junyi Liu, Xiaobo Zhao
- Abstract要約: 非部分的決定(PADR)に埋め込まれた経験的リスク(M)手法を提案する。
提案手法は理論的整合性を持つ広範で非クラスな非制約問題に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 5.054099828483128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Focusing on stochastic programming (SP) with covariate information, this
paper proposes an empirical risk minimization (ERM) method embedded within a
nonconvex piecewise affine decision rule (PADR), which aims to learn the direct
mapping from features to optimal decisions. We establish the nonasymptotic
consistency result of our PADR-based ERM model for unconstrained problems and
asymptotic consistency result for constrained ones. To solve the nonconvex and
nondifferentiable ERM problem, we develop an enhanced stochastic
majorization-minimization algorithm and establish the asymptotic convergence to
(composite strong) directional stationarity along with complexity analysis. We
show that the proposed PADR-based ERM method applies to a broad class of
nonconvex SP problems with theoretical consistency guarantees and computational
tractability. Our numerical study demonstrates the superior performance of
PADR-based ERM methods compared to state-of-the-art approaches under various
settings, with significantly lower costs, less computation time, and robustness
to feature dimensions and nonlinearity of the underlying dependency.
- Abstract(参考訳): 本稿では,共変量情報を用いた確率的プログラミング(SP)に着目し,特徴から最適決定への直接マッピングの学習を目的とした,非凸片方向アフィン決定規則(PADR)内に組み込んだ経験的リスク最小化(ERM)手法を提案する。
本研究では,制約のない問題に対するPADRに基づくERMモデルの漸近一貫性結果と制約のない問題に対する漸近一貫性結果を確立する。
非凸かつ微分不可能なEMM問題を解くため、拡張確率的偏極最小化アルゴリズムを開発し、複雑性解析とともに(強い)方向の定常性に対する漸近収束を確立する。
提案手法は,理論的整合性保証と計算的トラクタビリティを備えた,幅広い非凸SP問題に適用可能であることを示す。
本研究では, PADRを用いたERM法において, 各種条件下での最先端手法と比較して, コスト低減, 計算時間短縮, 特徴量に対するロバスト性, 基礎となる依存性の非線形性など, 優れた性能を示す。
関連論文リスト
- Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。