論文の概要: Prescribe-then-Select: Adaptive Policy Selection for Contextual Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2509.08194v1
- Date: Tue, 09 Sep 2025 23:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.270578
- Title: Prescribe-then-Select: Adaptive Policy Selection for Contextual Stochastic Optimization
- Title(参考訳): Prescribe-then-Select: 文脈確率最適化のための適応的ポリシー選択
- Authors: Caio de Prospero Iglesias, Kimberly Villalobos Carballo, Dimitris Bertsimas,
- Abstract要約: 本稿では,まず実行可能な候補ポリシーのライブラリを構築し,次に最適なポリシーを選択するためのメタ政治を学習するモジュラーフレームワークを提案する。
我々は、トレーニングセット上でクロスバリデーションによってトレーニングされた最適ポリシーツリーのアンサンブルを使用して、メタポリティクスを実装し、ポリシーの選択を完全にデータ駆動にする。
結果を再現するコードはすべてhttps://anonymous.4open.science/r/Prescribe-then-Select-TMLRにある。
- 参考スコア(独自算出の注目度): 4.154714580436713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of policy selection in contextual stochastic optimization (CSO), where covariates are available as contextual information and decisions must satisfy hard feasibility constraints. In many CSO settings, multiple candidate policies--arising from different modeling paradigms--exhibit heterogeneous performance across the covariate space, with no single policy uniformly dominating. We propose Prescribe-then-Select (PS), a modular framework that first constructs a library of feasible candidate policies and then learns a meta-policy to select the best policy for the observed covariates. We implement the meta-policy using ensembles of Optimal Policy Trees trained via cross-validation on the training set, making policy choice entirely data-driven. Across two benchmark CSO problems--single-stage newsvendor and two-stage shipment planning--PS consistently outperforms the best single policy in heterogeneous regimes of the covariate space and converges to the dominant policy when such heterogeneity is absent. All the code to reproduce the results can be found at https://anonymous.4open.science/r/Prescribe-then-Select-TMLR.
- Abstract(参考訳): 本稿では,文脈確率最適化(CSO)における政策選択の問題に対処する。
多くのCSO設定では、異なるモデリングパラダイムから得られる複数の候補ポリシーが共変量空間をまたいだ不均一なパフォーマンスを排除し、単一のポリシーが一様支配することはない。
提案するモジュール型フレームワークであるPrescribe-then-Select(PS)は,まず実行可能な候補ポリシーのライブラリを構築し,その後にメタ政治を学習して,観測された共変量に対する最良のポリシーを選択する。
我々は、トレーニングセット上でクロスバリデーションによってトレーニングされた最適ポリシーツリーのアンサンブルを使用して、メタポリティクスを実装し、ポリシーの選択を完全にデータ駆動にする。
CSOの2つのベンチマーク-単一段階のニューズベンダーと2段階の出荷計画---PSは、共変量空間の不均一な状態における最良の単一政策を一貫して上回り、そのような不均一性が欠如している場合に支配的な政策に収束する。
結果を再現するコードはすべてhttps://anonymous.4open.science/r/Prescribe-then-Select-TMLRにある。
関連論文リスト
- Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data [3.6714630660726586]
オフライン強化学習(RL)は,事前収集したデータを活用することで,期待される全報酬を最大化するために,動的環境における最適ポリシーを見つけることを目的としている。
従来の手法では、単一のエピソードや均質なバッチエピソードから事前に収集されたデータを持つすべての個人に対して最適なポリシーを学ぶことに重点を置いている。
異種時間定常マルコフ決定プロセスのための個別化オフラインポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T15:44:10Z) - Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Fat-to-Thin Policy Optimization: Offline RL with Sparse Policies [5.5938591697033555]
スパース連続ポリシー(sparse continuous policy)は、ランダムにいくつかのアクションを選択するが、他のアクションの確率を厳密にゼロにする分布である。
本稿では,Fat-to-Thin Policy Optimization (FtTPO) という,この問題に対処する最初のオフラインポリシ最適化アルゴリズムを提案する。
FtTPOを、ヘビーテールとスパースポリシーの両方を含む一般的な$q$-Gaussianファミリーでインスタンス化する。
論文 参考訳(メタデータ) (2025-01-24T10:11:48Z) - Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming for Policy Optimization in Mixed Discrete-Continuous MDPs [21.246169498568342]
CGPOは、表現力のある非線形力学を持つ多くのDC-MDPに対して、無限の範囲の初期状態に対する有界なポリシーエラーを保証する。
CGPOは、最悪の状態軌跡を生成して、政策上の欠陥を診断し、最適な行動の反実的な説明を提供する。
在庫管理,貯水池管理,物理制御など,各種分野におけるCGPOの適用性について実験的に検証した。
論文 参考訳(メタデータ) (2024-01-20T07:12:57Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。