論文の概要: Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model
- arxiv url: http://arxiv.org/abs/2303.15652v2
- Date: Sat, 14 Oct 2023 00:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 05:51:54.654559
- Title: Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model
- Title(参考訳): 構造化動的価格:グローバル収縮モデルにおける最適後悔
- Authors: Rashmi Ranjan Bhuyan, Adel Javanmard, Sungchul Kim, Gourab Mukherjee,
Ryan A. Rossi, Tong Yu, Handong Zhao
- Abstract要約: 消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
- 参考スコア(独自算出の注目度): 50.06663781566795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider dynamic pricing strategies in a streamed longitudinal data set-up
where the objective is to maximize, over time, the cumulative profit across a
large number of customer segments. We consider a dynamic model with the
consumers' preferences as well as price sensitivity varying over time. Building
on the well-known finding that consumers sharing similar characteristics act in
similar ways, we consider a global shrinkage structure, which assumes that the
consumers' preferences across the different segments can be well approximated
by a spatial autoregressive (SAR) model. In such a streamed longitudinal
set-up, we measure the performance of a dynamic pricing policy via regret,
which is the expected revenue loss compared to a clairvoyant that knows the
sequence of model parameters in advance. We propose a pricing policy based on
penalized stochastic gradient descent (PSGD) and explicitly characterize its
regret as functions of time, the temporal variability in the model parameters
as well as the strength of the auto-correlation network structure spanning the
varied customer segments. Our regret analysis results not only demonstrate
asymptotic optimality of the proposed policy but also show that for policy
planning it is essential to incorporate available structural information as
policies based on unshrunken models are highly sub-optimal in the
aforementioned set-up. We conduct simulation experiments across a wide range of
regimes as well as real-world networks based studies and report encouraging
performance for our proposed method.
- Abstract(参考訳): 我々は,多数の顧客セグメントにまたがる累積利益を最大化することが目的のストリーム縦型データ集合における動的価格戦略を検討する。
消費者の好みや価格の感度が時間とともに変化する動的モデルを考える。
類似した特性を共有する消費者が同様の方法で行動するというよく知られた発見に基づき、異なるセグメントをまたいだ消費者の嗜好を空間的自己回帰(sar)モデルによってよく近似できると仮定するグローバルな収縮構造を考える。
このようなストリーム型縦型設定では,モデルパラメータのシーケンスを事前に知っている透視型と比較して,予測した収益損失を後悔して,動的価格政策のパフォーマンスを計測する。
本稿では,ペナルティ化された確率的勾配降下(psgd)に基づく価格政策を提案し,その後悔を時間関数,モデルパラメータの時間変動性,および顧客セグメントにまたがる自己相関ネットワーク構造の強度として明確に特徴付ける。
提案した政策の漸近的最適性を示すだけでなく,未解決モデルに基づく政策として利用可能な構造情報を組み込むことが,上記の設定において極めて最適であることを示す。
提案手法を応用したシミュレーション実験と実世界ネットワークを用いた実験を行い,提案手法の性能向上を報告した。
関連論文リスト
- A Tale of Two Cities: Pessimism and Opportunism in Offline Dynamic Pricing [20.06425698412548]
本稿では,データカバレッジを前提としないオフライン動的価格について検討する。
我々は、関連する価格が観測されていない需要パラメータに限定した部分的識別を確立する。
提案した部分的識別枠組みに悲観的・機会論的戦略を取り入れて,推定方針を導出する。
論文 参考訳(メタデータ) (2024-11-12T19:09:41Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Choice Models and Permutation Invariance: Demand Estimation in
Differentiated Products Markets [5.8429701619765755]
ニューラルネットのような非パラメトリック推定器は、選択関数を簡単に近似できることを示す。
提案する関数は、完全にデータ駆動方式で、消費者の振る舞いを柔軟に捉えることができる。
我々の経験的分析により、推定器は現実的かつ同等の自己およびクロスプライス弾性を生成することが確認された。
論文 参考訳(メタデータ) (2023-07-13T23:24:05Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - Personalized Pricing with Invalid Instrumental Variables:
Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。
Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-24T14:50:47Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - On the estimation of discrete choice models to capture irrational
customer behaviors [4.683806391173103]
我々は、部分的にランク付けされた好みを使って、トランザクションデータから合理的で不合理な顧客タイプを効率的にモデル化する方法を示す。
提案手法の予測精度を評価する実験を幅広く行った。
論文 参考訳(メタデータ) (2021-09-08T19:19:51Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Self-adapting Robustness in Demand Learning [1.949912057689623]
本研究では,需要モデルあいまいさの存在下で,有限期間にわたる動的価格付けについて検討する。
データから真のモデルパラメータを学習するARL(Adaptively-robust-learning)価格ポリシを開発する。
我々は,ARLの自己適応的あいまいさセットの挙動を特徴付け,収益損失の規模と顧客到着パターンとの関係を強調する後悔の限界を導出する。
論文 参考訳(メタデータ) (2020-11-21T01:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。