論文の概要: Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand
- arxiv url: http://arxiv.org/abs/2504.09831v1
- Date: Mon, 14 Apr 2025 02:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:39.778869
- Title: Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand
- Title(参考訳): オフラインのダイナミックインベントリと価格戦略--検閲と依存的需要への対応
- Authors: Korel Gundem, Zhengling Qi,
- Abstract要約: オフライン機能に基づく価格と在庫管理の問題について検討する。
私たちの目標は、オフラインデータセットを活用して、最適な価格と在庫管理ポリシを見積もることです。
- 参考スコア(独自算出の注目度): 7.289672463326423
- License:
- Abstract: In this paper, we study the offline sequential feature-based pricing and inventory control problem where the current demand depends on the past demand levels and any demand exceeding the available inventory is lost. Our goal is to leverage the offline dataset, consisting of past prices, ordering quantities, inventory levels, covariates, and censored sales levels, to estimate the optimal pricing and inventory control policy that maximizes long-term profit. While the underlying dynamic without censoring can be modeled by Markov decision process (MDP), the primary obstacle arises from the observed process where demand censoring is present, resulting in missing profit information, the failure of the Markov property, and a non-stationary optimal policy. To overcome these challenges, we first approximate the optimal policy by solving a high-order MDP characterized by the number of consecutive censoring instances, which ultimately boils down to solving a specialized Bellman equation tailored for this problem. Inspired by offline reinforcement learning and survival analysis, we propose two novel data-driven algorithms to solving these Bellman equations and, thus, estimate the optimal policy. Furthermore, we establish finite sample regret bounds to validate the effectiveness of these algorithms. Finally, we conduct numerical experiments to demonstrate the efficacy of our algorithms in estimating the optimal policy. To the best of our knowledge, this is the first data-driven approach to learning optimal pricing and inventory control policies in a sequential decision-making environment characterized by censored and dependent demand. The implementations of the proposed algorithms are available at https://github.com/gundemkorel/Inventory_Pricing_Control
- Abstract(参考訳): 本稿では、現在の需要が過去の需要水準に依存し、利用可能な在庫を超える需要が失われる、オフラインの逐次機能ベースの価格・在庫管理問題について検討する。
我々の目標は、過去の価格、注文量、在庫水準、共変量、検閲された販売水準からなるオフラインデータセットを活用して、長期的な利益を最大化する最適な価格と在庫管理ポリシーを見積もることです。
検閲のない基礎となるダイナミクスは、マルコフ決定プロセス(MDP)によってモデル化できるが、主要な障害は、需要検閲が存在する観察プロセスから発生し、利益情報不足、マルコフ特性の失敗、非定常的最適政策をもたらす。
これらの課題を克服するために、我々はまず、連続的な検閲インスタンスの数によって特徴づけられる高次MDPを解くことで最適なポリシーを解く。
オフライン強化学習と生存分析に着想を得て,これらのベルマン方程式を解くための2つの新しいデータ駆動アルゴリズムを提案する。
さらに,これらのアルゴリズムの有効性を検証するために,有限サンプル後悔境界を確立する。
最後に,最適ポリシーを推定するアルゴリズムの有効性を示す数値実験を行った。
私たちの知る限りでは、検閲と依存の要求を特徴とするシーケンシャルな意思決定環境において、最適な価格設定と在庫管理ポリシーを学ぶためのデータ駆動型アプローチとしては、これが初めてです。
提案アルゴリズムの実装はhttps://github.com/gundemkorel/Inventory_Pricing_Controlで公開されている。
関連論文リスト
- Dynamic Pricing with Adversarially-Censored Demands [25.566323930646178]
我々は,各時点における潜在需要が$t=1,2,ldots,T$であり,価格に依存するオンライン動的価格問題について検討する。
一度に$t$が課せられ、在庫水準を超えた場合の潜在的な需要を検閲する。
本アルゴリズムは,逆在庫級数であっても,$tildeO(sqrtT)$Optimative regretを達成できることを示す。
論文 参考訳(メタデータ) (2025-02-10T05:37:39Z) - Learning While Repositioning in On-Demand Vehicle Sharing Networks [4.724825031148413]
我々は、一方通行のオンデマンド車両共有サービスによるネットワーク在庫問題を考える。
自然なリプシッツ帯域法が$widetildeO(Tfracnn+1)$の後悔の保証を達成できることを示し、これは$n$に対する指数的依存に悩まされる。
これらの課題に乗じて、検閲された需要のみに依存するオンライン・グラディエント・リポジション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-31T15:16:02Z) - The Data-Driven Censored Newsvendor Problem [0.552480439325792]
我々は,データ駆動型ニューズベンダー問題の検閲版について検討する。そこでは,意思決定者は,期待される過給と低給のコストを最小限に抑える順序付け量を選択する必要がある。
我々のゴールは、歴史的需要の検閲の程度が、この問題に対する学習アルゴリズムのパフォーマンスにどのように影響するかを理解することである。
我々は、歴史的需要検閲のレベルに適応する、自然なロバストなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-02T17:58:54Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Learning with Posterior Sampling for Revenue Management under Time-varying Demand [36.22276574805786]
価格設定項目やサービスによる収益を最大化するための収益管理問題について議論する。
この問題の1つの課題は、需要分布が未知であり、航空会社や小売業のような実際の応用において時間とともに変化することである。
論文 参考訳(メタデータ) (2024-05-08T09:28:26Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文 参考訳(メタデータ) (2021-09-20T14:47:54Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。