論文の概要: Self-adapting Robustness in Demand Learning
- arxiv url: http://arxiv.org/abs/2011.10690v1
- Date: Sat, 21 Nov 2020 01:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 23:32:45.183686
- Title: Self-adapting Robustness in Demand Learning
- Title(参考訳): 需要学習における自己適応ロバスト性
- Authors: Boxiao Chen, Selvaprabu Nadarajah, Parshan Pakiman, Stefanus Jasin
- Abstract要約: 本研究では,需要モデルあいまいさの存在下で,有限期間にわたる動的価格付けについて検討する。
データから真のモデルパラメータを学習するARL(Adaptively-robust-learning)価格ポリシを開発する。
我々は,ARLの自己適応的あいまいさセットの挙動を特徴付け,収益損失の規模と顧客到着パターンとの関係を強調する後悔の限界を導出する。
- 参考スコア(独自算出の注目度): 1.949912057689623
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study dynamic pricing over a finite number of periods in the presence of
demand model ambiguity. Departing from the typical no-regret learning
environment, where price changes are allowed at any time, pricing decisions are
made at pre-specified points in time and each price can be applied to a large
number of arrivals. In this environment, which arises in retailing, a pricing
decision based on an incorrect demand model can significantly impact cumulative
revenue. We develop an adaptively-robust-learning (ARL) pricing policy that
learns the true model parameters from the data while actively managing demand
model ambiguity. It optimizes an objective that is robust with respect to a
self-adapting set of demand models, where a given model is included in this set
only if the sales data revealed from prior pricing decisions makes it
"probable". As a result, it gracefully transitions from being robust when
demand model ambiguity is high to minimizing regret when this ambiguity
diminishes upon receiving more data. We characterize the stochastic behavior of
ARL's self-adapting ambiguity sets and derive a regret bound that highlights
the link between the scale of revenue loss and the customer arrival pattern. We
also show that ARL, by being conscious of both model ambiguity and revenue,
bridges the gap between a distributionally robust policy and a
follow-the-leader policy, which focus on model ambiguity and revenue,
respectively. We numerically find that the ARL policy, or its extension
thereof, exhibits superior performance compared to distributionally robust,
follow-the-leader, and upper-confidence-bound policies in terms of expected
revenue and/or value at risk.
- Abstract(参考訳): 需要モデルによる曖昧性の存在下で,有限周期の動的価格設定について検討する。
価格変更がいつでも許される典型的なノンレグレット学習環境とは別に、事前に指定された時点で価格決定が行われ、各価格が多数の到着者に適用される。
小売業において生じるこの環境では、誤った需要モデルに基づく価格決定は累積収益に大きな影響を与える。
需要モデルの曖昧さを積極的に管理しながら、データから真のモデルパラメータを学習する適応型ロバスト学習(arl)価格ポリシーを開発した。
自己適応型の需要モデルに対して堅牢な目標を最適化し、事前の価格決定から明らかになった販売データが「予測可能」である場合にのみ、所定のモデルをこのセットに含める。
その結果、需要モデルあいまいさが高い場合の堅牢さから、このあいまいさがより多くのデータを受け取ると減少する場合の後悔を最小限に抑えることができる。
我々は,ARLの自己適応的あいまいさ集合の確率的挙動を特徴付け,収益損失の規模と顧客到着パターンとの関係を強調した後悔の限界を導出する。
また、ARLは、モデルあいまいさと収益の両方を意識することで、分散ロバストな政策と、モデルあいまいさと収益に焦点を当てた後続の政策のギャップを埋めることを示す。
我々は,arl政策やその拡張が,予測収益やリスク価値の観点から,分布的堅牢性,従順性,高信頼性よりも優れた性能を示すことを数値的に確認する。
関連論文リスト
- Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Personalized Pricing with Invalid Instrumental Variables:
Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。
Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-24T14:50:47Z) - Conservative Bayesian Model-Based Value Expansion for Offline Policy
Optimization [41.774837419584735]
オフライン強化学習(英語版) (RL) は、ある行動ポリシーに従って収集された固定されたデータのバッチからパフォーマンスポリシーを学習する問題に対処する。
モデルベースのアプローチは、環境のモデルを学ぶことによって、ログ化されたデータセットからより多くの学習信号を抽出できるため、特に魅力的である。
論文 参考訳(メタデータ) (2022-10-07T20:13:50Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Uncertainty Quantification for Demand Prediction in Contextual Dynamic
Pricing [20.828160401904697]
本研究では,需要関数に対する精度の高い信頼区間構築の問題について検討する。
偏りのあるアプローチを開発し、偏りのある推定器の正規性を保証する。
論文 参考訳(メタデータ) (2020-03-16T04:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。