論文の概要: Online Learning and Optimization for Queues with Unknown Demand Curve
and Service Distribution
- arxiv url: http://arxiv.org/abs/2303.03399v1
- Date: Mon, 6 Mar 2023 08:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 17:40:40.684351
- Title: Online Learning and Optimization for Queues with Unknown Demand Curve
and Service Distribution
- Title(参考訳): 未知需要曲線とサービス分布をもつキューのオンライン学習と最適化
- Authors: Xinyun Chen, Yunan Liu, Guiyu Hong
- Abstract要約: サービス提供者が最適なサービス料金 p とサービス容量 mu を選択する待ち行列システムにおける最適化問題について検討する。
本研究では,パラメータ推定誤差を自動的に解法に組み込むオンライン学習フレームワークを開発した。
- 参考スコア(独自算出の注目度): 26.720986177499338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate an optimization problem in a queueing system where the service
provider selects the optimal service fee p and service capacity \mu to maximize
the cumulative expected profit (the service revenue minus the capacity cost and
delay penalty). The conventional predict-then-optimize (PTO) approach takes two
steps: first, it estimates the model parameters (e.g., arrival rate and
service-time distribution) from data; second, it optimizes a model based on the
estimated parameters. A major drawback of PTO is that its solution accuracy can
often be highly sensitive to the parameter estimation errors because PTO is
unable to properly link these errors (step 1) to the quality of the optimized
solutions (step 2). To remedy this issue, we develop an online learning
framework that automatically incorporates the aforementioned parameter
estimation errors in the solution prescription process; it is an integrated
method that can "learn" the optimal solution without needing to set up the
parameter estimation as a separate step as in PTO. Effectiveness of our online
learning approach is substantiated by (i) theoretical results including the
algorithm convergence and analysis of the regret ("cost" to pay over time for
the algorithm to learn the optimal policy), and (ii) engineering confirmation
via simulation experiments of a variety of representative examples. We also
provide careful comparisons for PTO and the online learning method.
- Abstract(参考訳): サービス提供者が最適なサービス料金 p とサービス容量 \mu を選択して累積利益を最大化する待ち行列システムにおける最適化問題について検討する(サービス収益はキャパシティコストと遅延ペナルティを抑える)。
従来の予測列最適化(PTO)アプローチでは、まずデータからモデルパラメータ(到着率やサービス時間分布など)を推定し、次に、推定パラメータに基づいてモデルを最適化する。
PTOの大きな欠点は、PTOがこれらの誤差を最適化された解の品質に適切にリンクできないため、その解の精度がパラメータ推定誤差に非常に敏感であることである(ステップ1)。
この問題を解決するために,我々は,上記のパラメータ推定誤差を自動的にソリューション処方プロセスに組み込むオンライン学習フレームワークを開発した。ptoのようにパラメータ推定を別ステップとして設定する必要なしに,最適な解を「学習」できる統合手法である。
オンライン学習手法の有効性は
(i)後悔のアルゴリズム収束と分析を含む理論的結果(アルゴリズムが最適方針を学ぶために時間をかけて支払うコスト)
(ii)代表例のシミュレーション実験による工学的確認
また,PTOとオンライン学習手法を慎重に比較する。
関連論文リスト
- Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T19:52:14Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - CaVE: A Cone-Aligned Approach for Fast Predict-then-optimize with Binary Linear Programs [23.00554768496448]
本研究はバイナリ線形プログラム(BLP)に焦点をあて,予測最適化のための新たなエンドツーエンドトレーニング手法を提案する。
コーン整列ベクトル推定法 (CaVE) は, 予測コストベクトルをトレーニングインスタンスの真の最適解に対応する正規コーンと整列する。
論文 参考訳(メタデータ) (2023-12-12T20:24:19Z) - Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and
Optimization [59.386153202037086]
Predict-Then-フレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。
本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T01:32:06Z) - Teaching Networks to Solve Optimization Problems [13.803078209630444]
反復解法をトレーニング可能なパラメトリック集合関数に置き換えることを提案する。
このようなパラメトリックな(集合)関数を学習することで、様々な古典的最適化問題を解くことができることを示す。
論文 参考訳(メタデータ) (2022-02-08T19:13:13Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。
提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文 参考訳(メタデータ) (2021-01-17T04:55:30Z) - Learning Augmented Index Policy for Optimal Service Placement at the
Network Edge [8.136957953239254]
私たちは、意思決定者がエッジでホストする$ N$サービスのいずれかを選択する必要があるネットワークエッジでサービス配置の問題を検討します。
私たちの目標は、顧客の平均サービス配信遅延を最小限に抑える適応アルゴリズムを設計することです。
論文 参考訳(メタデータ) (2021-01-10T23:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。