論文の概要: Dynamic Pricing and Learning with Long-term Reference Effects
- arxiv url: http://arxiv.org/abs/2402.12562v2
- Date: Sat, 20 Jul 2024 16:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 02:40:58.446202
- Title: Dynamic Pricing and Learning with Long-term Reference Effects
- Title(参考訳): 長期参照効果を考慮した動的価格設定と学習
- Authors: Shipra Agrawal, Wei Tang,
- Abstract要約: 本研究では,販売者が提示した過去の価格の基準価格が平均値となる,シンプルで斬新な参照価格メカニズムについて検討する。
このメカニズムの下では,モデルパラメータに関係なく,マークダウンポリシがほぼ最適であることを示す。
次に、需要モデルパラメータが不明な、より困難な動的価格と学習の問題について検討する。
- 参考スコア(独自算出の注目度): 16.07344044662994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a dynamic pricing problem where customer response to the current price is impacted by the customer price expectation, aka reference price. We study a simple and novel reference price mechanism where reference price is the average of the past prices offered by the seller. As opposed to the more commonly studied exponential smoothing mechanism, in our reference price mechanism the prices offered by seller have a longer term effect on the future customer expectations. We show that under this mechanism, a markdown policy is near-optimal irrespective of the parameters of the model. This matches the common intuition that a seller may be better off by starting with a higher price and then decreasing it, as the customers feel like they are getting bargains on items that are ordinarily more expensive. For linear demand models, we also provide a detailed characterization of the near-optimal markdown policy along with an efficient way of computing it. We then consider a more challenging dynamic pricing and learning problem, where the demand model parameters are apriori unknown, and the seller needs to learn them online from the customers' responses to the offered prices while simultaneously optimizing revenue. The objective is to minimize regret, i.e., the $T$-round revenue loss compared to a clairvoyant optimal policy. This task essentially amounts to learning a non-stationary optimal policy in a time-variant Markov Decision Process (MDP). For linear demand models, we provide an efficient learning algorithm with an optimal $\tilde{O}(\sqrt{T})$ regret upper bound.
- Abstract(参考訳): 我々は、現在の価格に対する顧客の反応が顧客の価格予想、いわゆる参照価格に影響されるような動的価格問題を考える。
本研究では,販売者が提示した過去の価格の基準価格が平均値となる,シンプルで斬新な参照価格メカニズムについて検討する。
一般に研究されている指数的円滑化メカニズムとは対照的に、当社の参照価格メカニズムでは、売り手が提供する価格が将来の顧客の期待に長期的な影響を与える。
このメカニズムの下では,モデルパラメータに関係なく,マークダウンポリシがほぼ最適であることを示す。
これは、売り手が高い価格から始めて値下げし、通常より高価な商品で取引をしているように感じることで、売り手の方が良いという一般的な直感と一致する。
また、線形需要モデルに対しては、最適に近いマークダウンポリシーの詳細な特徴付けと効率的な計算方法も提供する。
次に、需要モデルパラメータが不明であり、売り手は、提示された価格に対する顧客の反応からオンラインで学習し、同時に収益を最適化する必要がある、より困難な動的価格と学習の問題を考える。
目的は、過激な最適政策と比較して、後悔、すなわちT$ラウンドの収益損失を最小化することである。
このタスクは基本的に、時間変量マルコフ決定過程(MDP)における非定常最適ポリシーの学習に相当する。
線形需要モデルに対して、最適$\tilde{O}(\sqrt{T})$ regret upper bound を持つ効率的な学習アルゴリズムを提供する。
関連論文リスト
- A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models [4.156757591117864]
本稿では,問題に対する仮定を最小化しながら,改善された後悔境界を実現する新しいアルゴリズムを提案する。
本手法は, 一般関数空間を考慮し, 動的価格設定によく用いられる線形評価モデルを超えて拡張する。
論文 参考訳(メタデータ) (2024-06-24T23:43:56Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - Contextual Dynamic Pricing with Strategic Buyers [93.97401997137564]
戦略的買い手によるコンテキスト動的価格問題について検討する。
売り手は買い手の真の特徴を観察せず、買い手の戦略行動に応じて操作された特徴を観察する。
本稿では,販売者の累積収益を最大化するために,購入者の戦略的行動をオンライン学習に取り入れた戦略的動的価格政策を提案する。
論文 参考訳(メタデータ) (2023-07-08T23:06:42Z) - Dynamic Pricing and Learning with Bayesian Persuasion [18.59029578133633]
我々は,商品の価格設定に加えて,販売者が「広告計画」にコミットする,新たな動的価格設定と学習環境を考える。
我々は、バイエルンの一般的な説得フレームワークを使用して、これらのシグナルが購入者の評価と購入反応に与える影響をモデル化する。
我々は、過去の購入応答を利用して最適な価格と広告戦略を適応的に学習できるオンラインアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-27T17:52:06Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Price DOES Matter! Modeling Price and Interest Preferences in
Session-based Recommendation [55.0391061198924]
セッションベースのレコメンデーションは、匿名ユーザが自分の短い行動シーケンスに基づいて購入したいアイテムを予測することを目的としている。
セッションベースのレコメンデーションの価格設定を組み込むのは簡単ではない。
セッションベースレコメンデーションのためのCoHHN(Co-guided Heterogeneous Hypergraph Network)を提案する。
論文 参考訳(メタデータ) (2022-05-09T10:47:15Z) - Fairness-aware Online Price Discrimination with Nonparametric Demand
Models [13.46602731592102]
本稿では,公平性制約下での動的識別価格の問題について検討する。
本稿では,厳格な価格公正性制約を強制する,後悔に関する最適動的価格政策を提案する。
論文 参考訳(メタデータ) (2021-11-16T04:31:02Z) - Markdowns in E-Commerce Fresh Retail: A Counterfactual Prediction and
Multi-Period Optimization Approach [29.11201102550876]
半パラメトリック構造モデルを構築し、価格の弾力性を学習し、対物需要を予測する。
本稿では,有限販売地平線上での消耗品全体の利益を最大化するために,多周期動的価格アルゴリズムを提案する。
提案されたフレームワークは、よく知られたeコマースの新鮮な小売シナリオであるFreshippoにうまくデプロイされている。
論文 参考訳(メタデータ) (2021-05-18T07:01:37Z) - Dynamic Pricing and Learning under the Bass Model [16.823029377470366]
マーケットサイズが$m$である場合、オーダー$tilde O(m2/3)$の確率後悔保証を満足するアルゴリズムを開発する。
多くの後悔の分析結果とは異なり、現在の問題では市場規模$m$が複雑さの基本的な要因である。
論文 参考訳(メタデータ) (2021-03-09T03:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。