論文の概要: Learning with Posterior Sampling for Revenue Management under Time-varying Demand
- arxiv url: http://arxiv.org/abs/2405.04910v1
- Date: Wed, 8 May 2024 09:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 14:54:31.162711
- Title: Learning with Posterior Sampling for Revenue Management under Time-varying Demand
- Title(参考訳): 時間変動需要下における収益管理のための後方サンプリングによる学習
- Authors: Kazuma Shimizu, Junya Honda, Shinji Ito, Shinji Nakadai,
- Abstract要約: 価格設定項目やサービスによる収益を最大化するための収益管理問題について議論する。
この問題の1つの課題は、需要分布が未知であり、航空会社や小売業のような実際の応用において時間とともに変化することである。
- 参考スコア(独自算出の注目度): 36.22276574805786
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper discusses the revenue management (RM) problem to maximize revenue by pricing items or services. One challenge in this problem is that the demand distribution is unknown and varies over time in real applications such as airline and retail industries. In particular, the time-varying demand has not been well studied under scenarios of unknown demand due to the difficulty of jointly managing the remaining inventory and estimating the demand. To tackle this challenge, we first introduce an episodic generalization of the RM problem motivated by typical application scenarios. We then propose a computationally efficient algorithm based on posterior sampling, which effectively optimizes prices by solving linear programming. We derive a Bayesian regret upper bound of this algorithm for general models where demand parameters can be correlated between time periods, while also deriving a regret lower bound for generic algorithms. Our empirical study shows that the proposed algorithm performs better than other benchmark algorithms and comparably to the optimal policy in hindsight. We also propose a heuristic modification of the proposed algorithm, which further efficiently learns the pricing policy in the experiments.
- Abstract(参考訳): 本稿では、商品やサービスの価格設定による収益を最大化するための収益管理(RM)問題について論じる。
この問題の1つの課題は、需要分布が未知であり、航空会社や小売業のような実際の応用において時間とともに変化することである。
特に、在庫を共同管理し、需要を見積もることの難しさから、未知の需要シナリオ下では、時間変動需要は十分に研究されていない。
この課題に対処するために、我々はまず、典型的なアプリケーションシナリオによって動機付けられたRM問題のエピソジックな一般化を導入する。
そこで我々は,線形プログラミングを解き,効率よく価格を最適化する,後続サンプリングに基づく計算効率の良いアルゴリズムを提案する。
我々は、このアルゴリズムの一般モデルに対するベイズ的後悔の上界を導出し、需要パラメータを時間間隔で相関させることができるとともに、一般的なアルゴリズムに対する後悔の低い境界を導出する。
実験により,提案アルゴリズムは他のベンチマークアルゴリズムよりも優れた性能を示し,後向きの最適ポリシーと相容れない性能を示した。
また,提案アルゴリズムのヒューリスティックな修正を提案し,実験における価格ポリシーをより効率的に学習する。
関連論文リスト
- Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。
計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。
学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文 参考訳(メタデータ) (2024-07-01T16:53:00Z) - Online Inventory Problems: Beyond the i.i.d. Setting with Online Convex
Optimization [0.8602553195689513]
管理者がその累積損失を最小限に抑えるため、管理者が部分的履歴情報に基づいて逐次補充決定を行う多製品在庫管理問題について検討する。
我々は,非I.d.要求問題やステートフル・ダイナミクスの問題に対して,証明可能な保証を有するオンラインアルゴリズムであるMaxCOSDを提案する。
論文 参考訳(メタデータ) (2023-07-12T10:00:22Z) - High-dimensional Contextual Bandit Problem without Sparsity [8.782204980889077]
本稿では,この問題に対処し,その性能を検証するための探索列コミット(EtC)アルゴリズムを提案する。
我々は、ETCアルゴリズムの最適レートを$T$で導出し、探索とエクスプロイトのバランスをとることで、このレートを実現できることを示す。
本稿では,最適バランスを適応的に求める適応探索定理 (AEtC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-19T15:29:32Z) - Regret Bounds for Expected Improvement Algorithms in Gaussian Process
Bandit Optimization [63.8557841188626]
期待されている改善(EI)アルゴリズムは、不確実性の下で最適化するための最も一般的な戦略の1つである。
本稿では,GP予測平均を通した標準既存値を持つEIの変種を提案する。
我々のアルゴリズムは収束し、$mathcal O(gamma_TsqrtT)$の累積後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:17:53Z) - Online Allocation with Two-sided Resource Constraints [44.5635910908944]
我々は,要求が順次到着する,リソース制約の低いオンラインアロケーション問題を考える。
提案手法では, リクエスト全体を知るオフライン問題に対して, 1-O (fracepsilonalpha-epsilon)$-competitive ratioを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-28T02:21:06Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Regularized Online Allocation Problems: Fairness and Beyond [7.433931244705934]
本稿では, 総資源消費に作用する非線形正規化器を含む変種である, 語彙化オンライン割当問題を紹介する。
この問題では、要求は時間とともに繰り返し届き、各要求に対して、意思決定者は報酬を生成しリソースを消費するアクションを取る必要があります。
目的は、資源制約を受ける加算可分な報酬と非分離可正則化器の値とを同時に最大化することである。
論文 参考訳(メタデータ) (2020-07-01T14:24:58Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z) - Uncertainty Quantification for Demand Prediction in Contextual Dynamic
Pricing [20.828160401904697]
本研究では,需要関数に対する精度の高い信頼区間構築の問題について検討する。
偏りのあるアプローチを開発し、偏りのある推定器の正規性を保証する。
論文 参考訳(メタデータ) (2020-03-16T04:21:58Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。