Fugu-MT 論文翻訳(概要): Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Problems by Reinforcement Learning

論文の概要: Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Problems by Reinforcement Learning

arxiv url: http://arxiv.org/abs/2106.03279v1
Date: Sun, 6 Jun 2021 23:53:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-10 14:41:34.917633
Title: Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Problems by Reinforcement Learning
Title（参考訳）: 機能からmdpを学習する:強化学習による逐次的決定問題の予測最適化
Authors: Kai Wang, Sanket Shat, Haipeng Chen, Andrew Perrault, Finale Doshi-Velez, Milind Tambe
Abstract要約: 我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。 2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
参考スコア（独自算出の注目度）: 52.74071439183113
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the predict-then-optimize framework, the objective is to train a predictive model, mapping from environment features to parameters of an optimization problem, which maximizes decision quality when the optimization is subsequently solved. Recent work on decision-focused learning shows that embedding the optimization problem in the training pipeline can improve decision quality and help generalize better to unseen tasks compared to relying on an intermediate loss function for evaluating prediction quality. We study the predict-then-optimize framework in the context of sequential decision problems (formulated as MDPs) that are solved via reinforcement learning. In particular, we are given environment features and a set of trajectories from training MDPs, which we use to train a predictive model that generalizes to unseen test MDPs without trajectories. Two significant computational challenges arise in applying decision-focused learning to MDPs: (i) large state and action spaces make it infeasible for existing techniques to differentiate through MDP problems, and (ii) the high-dimensional policy space, as parameterized by a neural network, makes differentiating through a policy expensive. We resolve the first challenge by sampling provably unbiased derivatives to approximate and differentiate through optimality conditions, and the second challenge by using a low-rank approximation to the high-dimensional sample-based derivatives. We implement both Bellman--based and policy gradient--based decision-focused learning on three different MDP problems with missing parameters, and show that decision-focused learning performs better in generalization to unseen tasks.
Abstract（参考訳）: 本研究の目的は,予測モデルを学習し,環境特徴から最適化問題のパラメータにマッピングすることで,最適化が解決された際の意思決定品質を最大化することである。近年の意思決定中心学習の研究は、学習パイプラインに最適化問題を埋め込むことで、予測品質を評価するための中間損失関数に依存するよりも、意思決定品質を向上し、見つからないタスクを一般化できることを示している。我々は,強化学習によって解決される逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討する。特に、我々は環境機能と訓練mdpsからの一連の軌道が与えられ、これは軌道を持たないテストmdpsを一般化する予測モデルを訓練するために使用される。 1)大きな状態と行動空間は、MDP問題を通して差別化するための既存の技術にとって実現不可能であり、(2)ニューラルネットワークによってパラメータ化された高次元のポリシー空間は、ポリシーを通じて差別化を高くする。本稿では, 確率的に不偏微分をサンプリングし, 最適条件により近似・微分し, 第二の課題を高次元サンプルベース微分への低ランク近似を用いて解決する。我々は,パラメータの欠如を伴う3つの異なるmdp問題に対して,ベルマン型学習と政策勾配型意思決定型学習の両方を実装した。

関連論文リスト

Solver-Free Decision-Focused Learning for Linear Optimization Problems [6.305123652677644]
多くの実世界のシナリオでは、最適化問題のパラメータは事前に知られておらず、文脈的特徴から予測されなければならない。機械学習モデルは、最適化によって決定される問題パラメータを予測する。本稿では, 線形最適化の幾何学的構造を利用して, 解の質を最小限に抑え, 効率的な学習を可能にする手法を提案する。
論文参考訳（メタデータ） (2025-05-28T10:55:16Z)
Online Decision-Focused Learning [63.83903681295497]
意思決定中心学習(DFL)は、意思決定タスクで出力が使用される予測モデルを訓練するパラダイムとして、ますます人気が高まっている。対象関数が時間とともに進化しない動的環境におけるDFLについて検討する。決定空間が単純空間であるときと一般有界凸ポリトープであるときの両方において、期待される動的後悔の限界を確立する。
論文参考訳（メタデータ） (2025-05-19T10:40:30Z)
Self-Supervised Penalty-Based Learning for Robust Constrained Optimization [4.297070083645049]
本稿では,自己教師付きペナルティに基づく損失関数を用いた学習に基づいて,パラメータ化制約付きロバスト最適化のための新しい手法を提案する。我々のアプローチは、従来の解法よりも推論時間がかなり小さいニューラルネットワーク近似を効果的に学習することができる。
論文参考訳（メタデータ） (2025-03-07T06:42:17Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-07T19:52:14Z)
Differentiation of Multi-objective Data-driven Decision Pipeline [34.577809430781144]
実世界のシナリオは、しばしば多目的データ駆動最適化問題を含む。従来の2段階の手法では、機械学習モデルを用いて問題係数を推定し、続いて予測された最適化問題に取り組むためにソルバを呼び出す。近年の取り組みは、下流最適化問題から導かれる意思決定損失を用いた予測モデルのエンドツーエンドトレーニングに重点を置いている。
論文参考訳（メタデータ） (2024-06-02T15:42:03Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
End-to-End Learning for Fair Multiobjective Optimization Under Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文参考訳（メタデータ） (2024-02-12T16:33:35Z)
Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and Optimization [59.386153202037086]
Predict-Then-フレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。
論文参考訳（メタデータ） (2023-11-22T01:32:06Z)
Optimal Sequential Decision-Making in Geosteering: A Reinforcement Learning Approach [0.0]
ジオステアリングと呼ばれる掘削プロセス全体の軌道調整決定は、その後の選択や情報収集に影響を与える。本研究では,決定環境から直接学習するモデルフリー強化学習(RL)手法であるDeep Q-Network(DQN)手法を用いる。これまでに2つの合成ジオステアリングシナリオに対して,RLは準最適ADPに匹敵する高品質な結果が得られることを示した。
論文参考訳（メタデータ） (2023-10-07T10:49:30Z)
Automatically Learning Compact Quality-aware Surrogates for Optimization Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文参考訳（メタデータ） (2020-06-18T19:11:54Z)
Parameterized MDPs and Reinforcement Learning Problems -- A Maximum Entropy Principle Based Framework [2.741266294612776]
逐次的意思決定問題に対処する枠組みを提案する。我々のフレームワークは、ノイズの多いデータに対する堅牢性を備えた最適制御ポリシーの学習を特徴としている。
論文参考訳（メタデータ） (2020-06-17T04:08:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。