論文の概要: Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.03279v1
- Date: Sun, 6 Jun 2021 23:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 14:41:34.917633
- Title: Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning
- Title(参考訳): 機能からmdpを学習する:強化学習による逐次的決定問題の予測最適化
- Authors: Kai Wang, Sanket Shat, Haipeng Chen, Andrew Perrault, Finale
Doshi-Velez, Milind Tambe
- Abstract要約: 我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
- 参考スコア(独自算出の注目度): 52.74071439183113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the predict-then-optimize framework, the objective is to train a
predictive model, mapping from environment features to parameters of an
optimization problem, which maximizes decision quality when the optimization is
subsequently solved. Recent work on decision-focused learning shows that
embedding the optimization problem in the training pipeline can improve
decision quality and help generalize better to unseen tasks compared to relying
on an intermediate loss function for evaluating prediction quality. We study
the predict-then-optimize framework in the context of sequential decision
problems (formulated as MDPs) that are solved via reinforcement learning. In
particular, we are given environment features and a set of trajectories from
training MDPs, which we use to train a predictive model that generalizes to
unseen test MDPs without trajectories. Two significant computational challenges
arise in applying decision-focused learning to MDPs: (i) large state and action
spaces make it infeasible for existing techniques to differentiate through MDP
problems, and (ii) the high-dimensional policy space, as parameterized by a
neural network, makes differentiating through a policy expensive. We resolve
the first challenge by sampling provably unbiased derivatives to approximate
and differentiate through optimality conditions, and the second challenge by
using a low-rank approximation to the high-dimensional sample-based
derivatives. We implement both Bellman--based and policy gradient--based
decision-focused learning on three different MDP problems with missing
parameters, and show that decision-focused learning performs better in
generalization to unseen tasks.
- Abstract(参考訳): 本研究の目的は,予測モデルを学習し,環境特徴から最適化問題のパラメータにマッピングすることで,最適化が解決された際の意思決定品質を最大化することである。
近年の意思決定中心学習の研究は、学習パイプラインに最適化問題を埋め込むことで、予測品質を評価するための中間損失関数に依存するよりも、意思決定品質を向上し、見つからないタスクを一般化できることを示している。
我々は,強化学習によって解決される逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討する。
特に、我々は環境機能と訓練mdpsからの一連の軌道が与えられ、これは軌道を持たないテストmdpsを一般化する予測モデルを訓練するために使用される。
1)大きな状態と行動空間は、MDP問題を通して差別化するための既存の技術にとって実現不可能であり、(2)ニューラルネットワークによってパラメータ化された高次元のポリシー空間は、ポリシーを通じて差別化を高くする。
本稿では, 確率的に不偏微分をサンプリングし, 最適条件により近似・微分し, 第二の課題を高次元サンプルベース微分への低ランク近似を用いて解決する。
我々は,パラメータの欠如を伴う3つの異なるmdp問題に対して,ベルマン型学習と政策勾配型意思決定型学習の両方を実装した。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T19:52:14Z) - Differentiation of Multi-objective Data-driven Decision Pipeline [34.577809430781144]
実世界のシナリオは、しばしば多目的データ駆動最適化問題を含む。
従来の2段階の手法では、機械学習モデルを用いて問題係数を推定し、続いて予測された最適化問題に取り組むためにソルバを呼び出す。
近年の取り組みは、下流最適化問題から導かれる意思決定損失を用いた予測モデルのエンドツーエンドトレーニングに重点を置いている。
論文 参考訳(メタデータ) (2024-06-02T15:42:03Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and
Optimization [59.386153202037086]
Predict-Then-フレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。
本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T01:32:06Z) - End-to-End Learning for Stochastic Optimization: A Bayesian Perspective [9.356870107137093]
最適化におけるエンド・ツー・エンド・ラーニングの原則的アプローチを開発する。
本稿では,標準エンドツーエンド学習アルゴリズムがベイズ解釈を認め,ベイズ後の行動地図を訓練することを示す。
次に、意思決定マップの学習のための新しいエンドツーエンド学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-07T05:55:45Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z) - Parameterized MDPs and Reinforcement Learning Problems -- A Maximum
Entropy Principle Based Framework [2.741266294612776]
逐次的意思決定問題に対処する枠組みを提案する。
我々のフレームワークは、ノイズの多いデータに対する堅牢性を備えた最適制御ポリシーの学習を特徴としている。
論文 参考訳(メタデータ) (2020-06-17T04:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。