Fugu-MT 論文翻訳(概要): An online learning approach to dynamic pricing and capacity sizing in service systems

論文の概要: An online learning approach to dynamic pricing and capacity sizing in service systems

arxiv url: http://arxiv.org/abs/2009.02911v3
Date: Wed, 7 Sep 2022 08:40:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-21 03:24:38.299274
Title: An online learning approach to dynamic pricing and capacity sizing in service systems
Title（参考訳）: サービスシステムにおける動的価格と容量サイズに対するオンライン学習アプローチ
Authors: Xinyun Chen, Yunan Liu and Guiyu Hong
Abstract要約: 本稿では,$GI/GI/1$キューにおいて,動的価格とキャパシティサイズの問題について検討する。私たちのフレームワークは、GOLiQ(Gradient-based Online Learning in Queue)と呼ばれています。
参考スコア（独自算出の注目度）: 26.720986177499338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study a dynamic pricing and capacity sizing problem in a $GI/GI/1$ queue, where the service provider's objective is to obtain the optimal service fee $p$ and service capacity $\mu$ so as to maximize the cumulative expected profit (the service revenue minus the staffing cost and delay penalty). Due to the complex nature of the queueing dynamics, such a problem has no analytic solution so that previous research often resorts to heavy-traffic analysis where both the arrival rate and service rate are sent to infinity. In this work we propose an online learning framework designed for solving this problem which does not require the system's scale to increase. Our framework is dubbed Gradient-based Online Learning in Queue (GOLiQ). GOLiQ organizes the time horizon into successive operational cycles and prescribes an efficient procedure to obtain improved pricing and staffing policies in each cycle using data collected in previous cycles. Data here include the number of customer arrivals, waiting times, and the server's busy times. The ingenuity of this approach lies in its online nature, which allows the service provider do better by interacting with the environment. Effectiveness of GOLiQ is substantiated by (i) theoretical results including the algorithm convergence and regret analysis (with a logarithmic regret bound), and (ii) engineering confirmation via simulation experiments of a variety of representative $GI/GI/1$ queues.
Abstract（参考訳）: そこで、サービス提供者は、累積的な期待利益を最大化するために最適なサービス料$p$とサービス容量$\mu$を取得することを目的としている(サービス収益は、スタッフのコストと遅延ペナルティを減少させる)。待ち行列のダイナミクスの複雑な性質から、このような問題は解析的な解決策を持たないため、以前の研究では、到着率とサービスレートの両方が無限大に送信される重トラフィック分析がしばしば行われる。本研究では,システムの規模を増加させることなく,この問題を解決するためのオンライン学習フレームワークを提案する。このフレームワークはgradient-based online learning in queue (goliq)と呼ばれている。 goliqは、一連の運用サイクルに時間軸を整理し、前回のサイクルで収集したデータを使用して、各サイクルで価格と人員配置ポリシーを改善するための効率的な手順を規定している。ここでのデータには、顧客の到着数、待ち時間、サーバーの忙しい時間が含まれます。このアプローチの独創性は、そのオンラインの性質にある。これにより、サービスプロバイダは、環境と対話することで、よりよいことをすることができる。 GOLiQの有効性について (i)アルゴリズム収束・後悔分析を含む理論的結果(対数的後悔境界付き) (ii)代表的な$gi/gi/1$キューのシミュレーション実験による工学的確認

関連論文リスト

Reinforcement Learning with Action Chunking [56.838297900091426]
本稿では,長時間のスパース・リワード作業における強化学習アルゴリズムの改良手法であるQ-chunkingを提案する。我々のレシピはオフラインからオンラインまでのRL設定のために設計されており、オンライン学習のサンプル効率を最大化するためにオフライン前のデータセットを活用することが目的である。実験の結果,Q-chunkingはオフライン性能とオンラインサンプル効率が優れており,長時間のスパース・リワード操作タスクにおいて,最良オフライン-オンライン手法よりも優れていた。
論文参考訳（メタデータ） (2025-07-10T17:48:03Z)
Learning payoffs while routing in skill-based queues [0.4077787659104315]
我々は,全支払パラメータを適応的に学習し,全支払パラメータを最大化する機械学習アルゴリズムを構築した。このアルゴリズムは,残差の下限を導出することにより,対数項に最適であることを示す。
論文参考訳（メタデータ） (2024-12-13T14:33:50Z)
Dynamic Matching with Post-allocation Service and its Application to Refugee Resettlement [1.9689888982532262]
米国の主要難民再定住機関との協力により、我々は、新しい到着(避難ケース)が静的リソースの1つ(固定年限の場所)と即時かつ不可逆的に一致しなければならない動的なマッチング問題を調査した。サービスの時間的特性を考えると、サーバは特定の時点では利用できないため、動的リソースとして参照する。一致すれば、ケースは第一級サービスとして利用できるようになるのを待つことになる。
論文参考訳（メタデータ） (2024-10-30T13:17:38Z)
Learning-Augmented Competitive Algorithms for Spatiotemporal Online Allocation with Deadline Constraints [11.029788598491077]
我々は,サステナビリティとエネルギの新たな課題によって動機付けられた,新たなオンライン問題を紹介し,研究する。オンラインプレーヤーは$mathsfSOADで、ポイント当たりのメートル法空間$(, d) にアロケートしてスケジューリングすることで、ワークロードを完了します。各時点において、各時点における作業負荷のコストを表すサービスコスト関数が明らかにされ、プレーヤは、現在の作業のポイントへの割り当てを不当に決定しなければならない。
論文参考訳（メタデータ） (2024-08-14T22:08:06Z)
Online Optimization for Network Resource Allocation and Comparison with Reinforcement Learning Techniques [0.6466206145151128]
本稿では、ジョブ転送におけるオンラインネットワークリソース割り当て問題に取り組む。本稿では指数重み付け手法に基づくランダム化オンラインアルゴリズムを提案する。提案アルゴリズムは,その経験からアルゴリズムが適応し,学習していることを示す。
論文参考訳（メタデータ） (2023-11-16T17:08:27Z)
Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文参考訳（メタデータ） (2023-09-16T07:30:12Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
Approaching sales forecasting using recurrent neural networks and transformers [57.43518732385863]
深層学習技術を用いて,日・店・店レベルでの顧客販売予測問題に対処する3つの方法を開発した。実験結果から,データ前処理を最小限に抑えた単純なシーケンスアーキテクチャを用いて,優れた性能を実現することができることを示す。提案した解は約0.54の RMSLE を達成し、Kaggle コンペティションで提案された問題に対する他のより具体的な解と競合する。
論文参考訳（メタデータ） (2022-04-16T12:03:52Z)
Online Caching with Optimistic Learning [15.877673959068458]
本稿では,楽観的なオンライン学習のレンズを用いて,この問題に対処するための新しいアルゴリズムツールボックスを提案する。我々は、時間平均予算制約の下で、固定サイズのキャッシュや弾性的なリースキャッシュを備えた二部ネットワークのためのオンラインキャッシュアルゴリズムを設計する。提案した楽観的な学習キャッシュポリシは,完全予測に対してゼロ以下の性能損失(regret)を達成でき,任意のバッド予測に対してさえ,最も達成可能なリフレッシュバウンドである$O(sqrt T)を維持できることを示す。
論文参考訳（メタデータ） (2022-02-22T00:04:30Z)
Scheduling Servers with Stochastic Bilinear Rewards [7.519872646378837]
システム最適化問題は、マルチクラス、マルチサーバキューシステムスケジューリングで発生する。本稿では,報酬の限界コストを付加した重み付き比例フェアアロケーション基準に基づくスケジューリングアルゴリズムを提案する。我々のアルゴリズムは,時間的地平線に関して,サブ線形後悔とサブ線形平均保持コスト(および待ち時間境界)を考慮し,待ち行列システムの安定性を保証する。
論文参考訳（メタデータ） (2021-12-13T00:37:20Z)
A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。 DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文参考訳（メタデータ） (2021-06-08T16:27:04Z)
Better than the Best: Gradient-based Improper Reinforcement Learning for Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文参考訳（メタデータ） (2021-05-01T10:18:34Z)
Learning Augmented Index Policy for Optimal Service Placement at the Network Edge [8.136957953239254]
私たちは、意思決定者がエッジでホストする$ N$サービスのいずれかを選択する必要があるネットワークエッジでサービス配置の問題を検討します。私たちの目標は、顧客の平均サービス配信遅延を最小限に抑える適応アルゴリズムを設計することです。
論文参考訳（メタデータ） (2021-01-10T23:54:59Z)
Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文参考訳（メタデータ） (2020-02-17T18:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。