論文の概要: An online learning approach to dynamic pricing and capacity sizing in
service systems
- arxiv url: http://arxiv.org/abs/2009.02911v3
- Date: Wed, 7 Sep 2022 08:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 03:24:38.299274
- Title: An online learning approach to dynamic pricing and capacity sizing in
service systems
- Title(参考訳): サービスシステムにおける動的価格と容量サイズに対するオンライン学習アプローチ
- Authors: Xinyun Chen, Yunan Liu and Guiyu Hong
- Abstract要約: 本稿では,$GI/GI/1$キューにおいて,動的価格とキャパシティサイズの問題について検討する。
私たちのフレームワークは、GOLiQ(Gradient-based Online Learning in Queue)と呼ばれています。
- 参考スコア(独自算出の注目度): 26.720986177499338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a dynamic pricing and capacity sizing problem in a $GI/GI/1$ queue,
where the service provider's objective is to obtain the optimal service fee $p$
and service capacity $\mu$ so as to maximize the cumulative expected profit
(the service revenue minus the staffing cost and delay penalty). Due to the
complex nature of the queueing dynamics, such a problem has no analytic
solution so that previous research often resorts to heavy-traffic analysis
where both the arrival rate and service rate are sent to infinity. In this work
we propose an online learning framework designed for solving this problem which
does not require the system's scale to increase. Our framework is dubbed
Gradient-based Online Learning in Queue (GOLiQ). GOLiQ organizes the time
horizon into successive operational cycles and prescribes an efficient
procedure to obtain improved pricing and staffing policies in each cycle using
data collected in previous cycles. Data here include the number of customer
arrivals, waiting times, and the server's busy times. The ingenuity of this
approach lies in its online nature, which allows the service provider do better
by interacting with the environment. Effectiveness of GOLiQ is substantiated by
(i) theoretical results including the algorithm convergence and regret analysis
(with a logarithmic regret bound), and (ii) engineering confirmation via
simulation experiments of a variety of representative $GI/GI/1$ queues.
- Abstract(参考訳): そこで、サービス提供者は、累積的な期待利益を最大化するために最適なサービス料$p$とサービス容量$\mu$を取得することを目的としている(サービス収益は、スタッフのコストと遅延ペナルティを減少させる)。
待ち行列のダイナミクスの複雑な性質から、このような問題は解析的な解決策を持たないため、以前の研究では、到着率とサービスレートの両方が無限大に送信される重トラフィック分析がしばしば行われる。
本研究では,システムの規模を増加させることなく,この問題を解決するためのオンライン学習フレームワークを提案する。
このフレームワークはgradient-based online learning in queue (goliq)と呼ばれている。
goliqは、一連の運用サイクルに時間軸を整理し、前回のサイクルで収集したデータを使用して、各サイクルで価格と人員配置ポリシーを改善するための効率的な手順を規定している。
ここでのデータには、顧客の到着数、待ち時間、サーバーの忙しい時間が含まれます。
このアプローチの独創性は、そのオンラインの性質にある。これにより、サービスプロバイダは、環境と対話することで、よりよいことをすることができる。
GOLiQの有効性について
(i)アルゴリズム収束・後悔分析を含む理論的結果(対数的後悔境界付き)
(ii)代表的な$gi/gi/1$キューのシミュレーション実験による工学的確認
関連論文リスト
- Learning payoffs while routing in skill-based queues [0.4077787659104315]
我々は,全支払パラメータを適応的に学習し,全支払パラメータを最大化する機械学習アルゴリズムを構築した。
このアルゴリズムは,残差の下限を導出することにより,対数項に最適であることを示す。
論文 参考訳(メタデータ) (2024-12-13T14:33:50Z) - Dynamic Matching with Post-allocation Service and its Application to Refugee Resettlement [1.9689888982532262]
米国の主要難民再定住機関との協力により、我々は、新しい到着(避難ケース)が静的リソースの1つ(固定年限の場所)と即時かつ不可逆的に一致しなければならない動的なマッチング問題を調査した。
サービスの時間的特性を考えると、サーバは特定の時点では利用できないため、動的リソースとして参照する。一致すれば、ケースは第一級サービスとして利用できるようになるのを待つことになる。
論文 参考訳(メタデータ) (2024-10-30T13:17:38Z) - Online Optimization for Network Resource Allocation and Comparison with
Reinforcement Learning Techniques [0.6466206145151128]
本稿では、ジョブ転送におけるオンラインネットワークリソース割り当て問題に取り組む。
本稿では指数重み付け手法に基づくランダム化オンラインアルゴリズムを提案する。
提案アルゴリズムは,その経験からアルゴリズムが適応し,学習していることを示す。
論文 参考訳(メタデータ) (2023-11-16T17:08:27Z) - Efficient Methods for Non-stationary Online Learning [61.63338724659592]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
また、さらに強化された測度、すなわち「インターバル・ダイナミック・リピート」を研究し、ラウンド当たりの射影数を$mathcalO(log2 T)$から$$$$に減らした。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Approaching sales forecasting using recurrent neural networks and
transformers [57.43518732385863]
深層学習技術を用いて,日・店・店レベルでの顧客販売予測問題に対処する3つの方法を開発した。
実験結果から,データ前処理を最小限に抑えた単純なシーケンスアーキテクチャを用いて,優れた性能を実現することができることを示す。
提案した解は約0.54の RMSLE を達成し、Kaggle コンペティションで提案された問題に対する他のより具体的な解と競合する。
論文 参考訳(メタデータ) (2022-04-16T12:03:52Z) - Scheduling Servers with Stochastic Bilinear Rewards [7.519872646378837]
システム最適化問題は、マルチクラス、マルチサーバキューシステムスケジューリングで発生する。
本稿では,報酬の限界コストを付加した重み付き比例フェアアロケーション基準に基づくスケジューリングアルゴリズムを提案する。
我々のアルゴリズムは,時間的地平線に関して,サブ線形後悔とサブ線形平均保持コスト(および待ち時間境界)を考慮し,待ち行列システムの安定性を保証する。
論文 参考訳(メタデータ) (2021-12-13T00:37:20Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Learning Augmented Index Policy for Optimal Service Placement at the
Network Edge [8.136957953239254]
私たちは、意思決定者がエッジでホストする$ N$サービスのいずれかを選択する必要があるネットワークエッジでサービス配置の問題を検討します。
私たちの目標は、顧客の平均サービス配信遅延を最小限に抑える適応アルゴリズムを設計することです。
論文 参考訳(メタデータ) (2021-01-10T23:54:59Z) - Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。
段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。
オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文 参考訳(メタデータ) (2020-02-17T18:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。