論文の概要: Online Learning and Optimization for Queues with Unknown Demand Curve
and Service Distribution
- arxiv url: http://arxiv.org/abs/2303.03399v1
- Date: Mon, 6 Mar 2023 08:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 17:40:40.684351
- Title: Online Learning and Optimization for Queues with Unknown Demand Curve
and Service Distribution
- Title(参考訳): 未知需要曲線とサービス分布をもつキューのオンライン学習と最適化
- Authors: Xinyun Chen, Yunan Liu, Guiyu Hong
- Abstract要約: サービス提供者が最適なサービス料金 p とサービス容量 mu を選択する待ち行列システムにおける最適化問題について検討する。
本研究では,パラメータ推定誤差を自動的に解法に組み込むオンライン学習フレームワークを開発した。
- 参考スコア(独自算出の注目度): 26.720986177499338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate an optimization problem in a queueing system where the service
provider selects the optimal service fee p and service capacity \mu to maximize
the cumulative expected profit (the service revenue minus the capacity cost and
delay penalty). The conventional predict-then-optimize (PTO) approach takes two
steps: first, it estimates the model parameters (e.g., arrival rate and
service-time distribution) from data; second, it optimizes a model based on the
estimated parameters. A major drawback of PTO is that its solution accuracy can
often be highly sensitive to the parameter estimation errors because PTO is
unable to properly link these errors (step 1) to the quality of the optimized
solutions (step 2). To remedy this issue, we develop an online learning
framework that automatically incorporates the aforementioned parameter
estimation errors in the solution prescription process; it is an integrated
method that can "learn" the optimal solution without needing to set up the
parameter estimation as a separate step as in PTO. Effectiveness of our online
learning approach is substantiated by (i) theoretical results including the
algorithm convergence and analysis of the regret ("cost" to pay over time for
the algorithm to learn the optimal policy), and (ii) engineering confirmation
via simulation experiments of a variety of representative examples. We also
provide careful comparisons for PTO and the online learning method.
- Abstract(参考訳): サービス提供者が最適なサービス料金 p とサービス容量 \mu を選択して累積利益を最大化する待ち行列システムにおける最適化問題について検討する(サービス収益はキャパシティコストと遅延ペナルティを抑える)。
従来の予測列最適化(PTO)アプローチでは、まずデータからモデルパラメータ(到着率やサービス時間分布など)を推定し、次に、推定パラメータに基づいてモデルを最適化する。
PTOの大きな欠点は、PTOがこれらの誤差を最適化された解の品質に適切にリンクできないため、その解の精度がパラメータ推定誤差に非常に敏感であることである(ステップ1)。
この問題を解決するために,我々は,上記のパラメータ推定誤差を自動的にソリューション処方プロセスに組み込むオンライン学習フレームワークを開発した。ptoのようにパラメータ推定を別ステップとして設定する必要なしに,最適な解を「学習」できる統合手法である。
オンライン学習手法の有効性は
(i)後悔のアルゴリズム収束と分析を含む理論的結果(アルゴリズムが最適方針を学ぶために時間をかけて支払うコスト)
(ii)代表例のシミュレーション実験による工学的確認
また,PTOとオンライン学習手法を慎重に比較する。
関連論文リスト
- End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and
Optimization [59.386153202037086]
Predict-Then-フレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。
本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T01:32:06Z) - Rethinking and Benchmarking Predict-then-Optimize Paradigm for
Combinatorial Optimization Problems [62.25108152764568]
多くのWebアプリケーションは、エネルギーコストを考慮したスケジューリング、Web広告の予算配分、ソーシャルネットワークでのグラフマッチングなど、最適化問題の解決に頼っている。
統一システムにおける予測と意思決定の性能について考察する。
我々は、現在のアプローチを包括的に分類し、既存の実験シナリオを統合する。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Regret Bounds and Experimental Design for Estimate-then-Optimize [9.340611077939828]
実用的なアプリケーションでは、データは見積もりと最適化の2つのステップで決定される。
見積もりステップのエラーは、見積もりを最適化して、サブ最適決定に導くことができる。
我々は、滑らかで制約のない最適化問題に対するこの後悔に縛られた小説を提供する。
論文 参考訳(メタデータ) (2022-10-27T16:13:48Z) - Teaching Networks to Solve Optimization Problems [13.803078209630444]
反復解法をトレーニング可能なパラメトリック集合関数に置き換えることを提案する。
このようなパラメトリックな(集合)関数を学習することで、様々な古典的最適化問題を解くことができることを示す。
論文 参考訳(メタデータ) (2022-02-08T19:13:13Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。
提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文 参考訳(メタデータ) (2021-01-17T04:55:30Z) - Learning Augmented Index Policy for Optimal Service Placement at the
Network Edge [8.136957953239254]
私たちは、意思決定者がエッジでホストする$ N$サービスのいずれかを選択する必要があるネットワークエッジでサービス配置の問題を検討します。
私たちの目標は、顧客の平均サービス配信遅延を最小限に抑える適応アルゴリズムを設計することです。
論文 参考訳(メタデータ) (2021-01-10T23:54:59Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。