論文の概要: Online Contextual Decision-Making with a Smart Predict-then-Optimize
Method
- arxiv url: http://arxiv.org/abs/2206.07316v1
- Date: Wed, 15 Jun 2022 06:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 13:19:09.756357
- Title: Online Contextual Decision-Making with a Smart Predict-then-Optimize
Method
- Title(参考訳): スマート予測列最適化法によるオンライン環境意思決定
- Authors: Heyuan Liu and Paul Grigas
- Abstract要約: 資源制約を考慮したオンライン文脈決定問題について検討する。
本稿では,「スマート予測-then-(SPO)」法に基づく予測ステップと,ミラー降下に基づく2つの更新ステップを混合するアルゴリズムを提案する。
提案手法の全体的な収束速度はオンラインミラー降下の$mathcalO(T-1/2)$収束に依存することを示す。
- 参考スコア(独自算出の注目度): 4.061135251278187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study an online contextual decision-making problem with resource
constraints. At each time period, the decision-maker first predicts a reward
vector and resource consumption matrix based on a given context vector and then
solves a downstream optimization problem to make a decision. The final goal of
the decision-maker is to maximize the summation of the reward and the utility
from resource consumption, while satisfying the resource constraints. We
propose an algorithm that mixes a prediction step based on the "Smart
Predict-then-Optimize (SPO)" method with a dual update step based on mirror
descent. We prove regret bounds and demonstrate that the overall convergence
rate of our method depends on the $\mathcal{O}(T^{-1/2})$ convergence of online
mirror descent as well as risk bounds of the surrogate loss function used to
learn the prediction model. Our algorithm and regret bounds apply to a general
convex feasible region for the resource constraints, including both hard and
soft resource constraint cases, and they apply to a wide class of prediction
models in contrast to the traditional settings of linear contextual models or
finite policy spaces. We also conduct numerical experiments to empirically
demonstrate the strength of our proposed SPO-type methods, as compared to
traditional prediction-error-only methods, on multi-dimensional knapsack and
longest path instances.
- Abstract(参考訳): 資源制約を伴うオンラインコンテキスト意思決定問題について検討する。
各期間において、意思決定者は、与えられたコンテキストベクトルに基づいて、まず報奨ベクトルおよびリソース消費行列を予測し、次に下流最適化問題を解いて決定する。
意思決定者の最終的な目標は、リソースの制約を満たしながら、リソース消費による報酬とユーティリティの合計を最大化することである。
本稿では,SPO(Smart Predict-then-Optimize)法に基づく予測ステップと,ミラー降下に基づく2つの更新ステップを混合するアルゴリズムを提案する。
本手法の総合収束率はオンラインミラー降下の$\mathcal{o}(t^{-1/2})$収束と予測モデルの学習に用いられる代理損失関数のリスク境界に依存することを示した。
我々のアルゴリズムと後悔境界は、ハードとソフトの両方の制約を含むリソース制約に対して一般的な凸可能な領域に適用され、線形文脈モデルや有限ポリシー空間の伝統的な設定とは対照的に、広範囲の予測モデルに適用されます。
また,従来の予測誤りのみ法と比較して,多次元ナップサックおよび最長経路インスタンスにおいて,提案手法の強みを実証的に実証する数値実験を行った。
関連論文リスト
- Contextual Linear Optimization with Bandit Feedback [35.692428244561626]
文脈線形最適化(CLO)は、ランダムコスト係数の不確実性を低減するために予測的文脈特徴を用いる。
我々は,帯域幅フィードバックを用いたCLOのためのオフライン学習アルゴリズムのクラスについて検討する。
IERMに対する高速な後悔境界を示し、不特定モデルクラスと最適化推定の柔軟な選択を可能にする。
論文 参考訳(メタデータ) (2024-05-26T13:27:27Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - An Online Algorithm for Chance Constrained Resource Allocation [10.791923293928987]
本稿では,オンライン資源配分問題 (RAP) を確率制約で検討する。
私たちの知る限りでは、オンラインRAP問題に制約が導入されるのはこれが初めてです。
論文 参考訳(メタデータ) (2023-03-06T16:17:19Z) - A Note on Task-Aware Loss via Reweighing Prediction Loss by
Decision-Regret [11.57423546614283]
我々は予測最適化の意思決定対応版を提案する。
コストの(非重みのない)パイロット推定器が犯した決定の後悔による予測誤差を再検討する。
このアプローチは"予測を最適化する"フレームワークよりも改善する可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-09T18:59:35Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Online Allocation with Two-sided Resource Constraints [44.5635910908944]
我々は,要求が順次到着する,リソース制約の低いオンラインアロケーション問題を考える。
提案手法では, リクエスト全体を知るオフライン問題に対して, 1-O (fracepsilonalpha-epsilon)$-competitive ratioを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-28T02:21:06Z) - A Surrogate Objective Framework for Prediction+Optimization with Soft
Constraints [29.962390392493507]
SPO+や直接最適化のような決定に焦点をあてた予測手法が、このギャップを埋めるために提案されている。
本稿では,実世界の線形および半定値負の二次計画問題に対して,解析的に微分可能な主観的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-22T17:09:57Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。