論文の概要: Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model
- arxiv url: http://arxiv.org/abs/2303.15652v2
- Date: Sat, 14 Oct 2023 00:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 05:51:54.654559
- Title: Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model
- Title(参考訳): 構造化動的価格:グローバル収縮モデルにおける最適後悔
- Authors: Rashmi Ranjan Bhuyan, Adel Javanmard, Sungchul Kim, Gourab Mukherjee,
Ryan A. Rossi, Tong Yu, Handong Zhao
- Abstract要約: 消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
- 参考スコア(独自算出の注目度): 50.06663781566795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider dynamic pricing strategies in a streamed longitudinal data set-up
where the objective is to maximize, over time, the cumulative profit across a
large number of customer segments. We consider a dynamic model with the
consumers' preferences as well as price sensitivity varying over time. Building
on the well-known finding that consumers sharing similar characteristics act in
similar ways, we consider a global shrinkage structure, which assumes that the
consumers' preferences across the different segments can be well approximated
by a spatial autoregressive (SAR) model. In such a streamed longitudinal
set-up, we measure the performance of a dynamic pricing policy via regret,
which is the expected revenue loss compared to a clairvoyant that knows the
sequence of model parameters in advance. We propose a pricing policy based on
penalized stochastic gradient descent (PSGD) and explicitly characterize its
regret as functions of time, the temporal variability in the model parameters
as well as the strength of the auto-correlation network structure spanning the
varied customer segments. Our regret analysis results not only demonstrate
asymptotic optimality of the proposed policy but also show that for policy
planning it is essential to incorporate available structural information as
policies based on unshrunken models are highly sub-optimal in the
aforementioned set-up. We conduct simulation experiments across a wide range of
regimes as well as real-world networks based studies and report encouraging
performance for our proposed method.
- Abstract(参考訳): 我々は,多数の顧客セグメントにまたがる累積利益を最大化することが目的のストリーム縦型データ集合における動的価格戦略を検討する。
消費者の好みや価格の感度が時間とともに変化する動的モデルを考える。
類似した特性を共有する消費者が同様の方法で行動するというよく知られた発見に基づき、異なるセグメントをまたいだ消費者の嗜好を空間的自己回帰(sar)モデルによってよく近似できると仮定するグローバルな収縮構造を考える。
このようなストリーム型縦型設定では,モデルパラメータのシーケンスを事前に知っている透視型と比較して,予測した収益損失を後悔して,動的価格政策のパフォーマンスを計測する。
本稿では,ペナルティ化された確率的勾配降下(psgd)に基づく価格政策を提案し,その後悔を時間関数,モデルパラメータの時間変動性,および顧客セグメントにまたがる自己相関ネットワーク構造の強度として明確に特徴付ける。
提案した政策の漸近的最適性を示すだけでなく,未解決モデルに基づく政策として利用可能な構造情報を組み込むことが,上記の設定において極めて最適であることを示す。
提案手法を応用したシミュレーション実験と実世界ネットワークを用いた実験を行い,提案手法の性能向上を報告した。
関連論文リスト
- COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Choice Models and Permutation Invariance: Demand Estimation in
Differentiated Products Markets [5.8429701619765755]
ニューラルネットのような非パラメトリック推定器は、選択関数を簡単に近似できることを示す。
提案する関数は、完全にデータ駆動方式で、消費者の振る舞いを柔軟に捉えることができる。
我々の経験的分析により、推定器は現実的かつ同等の自己およびクロスプライス弾性を生成することが確認された。
論文 参考訳(メタデータ) (2023-07-13T23:24:05Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - Personalized Pricing with Invalid Instrumental Variables:
Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。
Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-24T14:50:47Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Statistical Learning for Individualized Asset Allocation [22.053470518472356]
我々は,連続行動の効果をモデル化するための離散化手法を開発した。
一般化された凹凸ペナルティを用いた推定器は望ましい理論的特性を享受できることを示す。
その結果, 個人化された最適戦略は, 個人財政の健全性を向上し, ベンチマーク戦略を超越していることが示唆された。
論文 参考訳(メタデータ) (2022-01-20T04:40:03Z) - On the estimation of discrete choice models to capture irrational
customer behaviors [4.683806391173103]
我々は、部分的にランク付けされた好みを使って、トランザクションデータから合理的で不合理な顧客タイプを効率的にモデル化する方法を示す。
提案手法の予測精度を評価する実験を幅広く行った。
論文 参考訳(メタデータ) (2021-09-08T19:19:51Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Self-adapting Robustness in Demand Learning [1.949912057689623]
本研究では,需要モデルあいまいさの存在下で,有限期間にわたる動的価格付けについて検討する。
データから真のモデルパラメータを学習するARL(Adaptively-robust-learning)価格ポリシを開発する。
我々は,ARLの自己適応的あいまいさセットの挙動を特徴付け,収益損失の規模と顧客到着パターンとの関係を強調する後悔の限界を導出する。
論文 参考訳(メタデータ) (2020-11-21T01:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。