論文の概要: Online Regularization towards Always-Valid High-Dimensional Dynamic
Pricing
- arxiv url: http://arxiv.org/abs/2007.02470v3
- Date: Mon, 20 Nov 2023 19:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 06:27:05.497926
- Title: Online Regularization towards Always-Valid High-Dimensional Dynamic
Pricing
- Title(参考訳): リアルタイム高次元動的価格設定に向けたオンライン正規化
- Authors: Chi-Hua Wang, Zhanyu Wang, Will Wei Sun, Guang Cheng
- Abstract要約: 本稿では,動的価格ポリシーに基づくオンライン統計学習を理論的保証付きで設計するための新しい手法を提案する。
提案手法は,提案する楽観的オンライン定期化最大価格(OORMLP)に3つの大きな利点がある。
理論的には,提案したOORMLPアルゴリズムは高次元モデルの空間構造を利用し,決定の地平線における対数的後悔を保証する。
- 参考スコア(独自算出の注目度): 19.11333865618553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Devising dynamic pricing policy with always valid online statistical learning
procedure is an important and as yet unresolved problem. Most existing dynamic
pricing policy, which focus on the faithfulness of adopted customer choice
models, exhibit a limited capability for adapting the online uncertainty of
learned statistical model during pricing process. In this paper, we propose a
novel approach for designing dynamic pricing policy based regularized online
statistical learning with theoretical guarantees. The new approach overcomes
the challenge of continuous monitoring of online Lasso procedure and possesses
several appealing properties. In particular, we make the decisive observation
that the always-validity of pricing decisions builds and thrives on the online
regularization scheme. Our proposed online regularization scheme equips the
proposed optimistic online regularized maximum likelihood pricing (OORMLP)
pricing policy with three major advantages: encode market noise knowledge into
pricing process optimism; empower online statistical learning with
always-validity over all decision points; envelop prediction error process with
time-uniform non-asymptotic oracle inequalities. This type of non-asymptotic
inference results allows us to design more sample-efficient and robust dynamic
pricing algorithms in practice. In theory, the proposed OORMLP algorithm
exploits the sparsity structure of high-dimensional models and secures a
logarithmic regret in a decision horizon. These theoretical advances are made
possible by proposing an optimistic online Lasso procedure that resolves
dynamic pricing problems at the process level, based on a novel use of
non-asymptotic martingale concentration. In experiments, we evaluate OORMLP in
different synthetic and real pricing problem settings, and demonstrate that
OORMLP advances the state-of-the-art methods.
- Abstract(参考訳): 常に有効なオンライン統計学習手順を持つ動的価格ポリシーの開発は重要かつ未解決の問題である。
既存の動的価格政策のほとんどは、顧客選択モデルの忠実性に焦点を当てており、価格プロセス中に学習された統計モデルのオンライン不確実性に適応する能力は限られている。
本稿では,動的価格ポリシーに基づくオンライン統計学習を理論的保証付きで設計するための新しいアプローチを提案する。
新しいアプローチは、オンラインラッソ手順の継続的な監視という課題を克服し、いくつかの魅力的な特性を持っている。
特に、価格決定の常に妥当性がオンラインの正規化スキームに基づいて構築され、成長するという決定的な観察を行ないます。
提案手法は,提案した楽観的オンライン定式化最大価格(OORMLP)の価格体系に,市場ノイズ知識を価格決定プロセスの最適化にエンコードすること,オンライン統計学習をすべての決定点に対して常に正当性で強化すること,時間的一様でないオラクルの不平等による予測誤差プロセスの包含という,3つの大きな利点を付与する。
このタイプの非漸近推論結果により、よりサンプリング効率が高くロバストな動的価格アルゴリズムを実際に設計することができる。
理論的には,提案したOORMLPアルゴリズムは高次元モデルの空間構造を利用し,決定の地平線における対数的後悔を保証する。
これらの理論的進歩は、非漸近的なマルティンゲール濃度の新しい使用に基づいて、プロセスレベルで動的価格問題を解決する楽観的なオンラインラッソ手順を提案することによって可能となる。
実験では,OORMLPを異なる合成および実際の価格設定で評価し,OORMLPが最先端の手法を進歩させることを示す。
関連論文リスト
- A Tale of Two Cities: Pessimism and Opportunism in Offline Dynamic Pricing [20.06425698412548]
本稿では,データカバレッジを前提としないオフライン動的価格について検討する。
我々は、関連する価格が観測されていない需要パラメータに限定した部分的識別を確立する。
提案した部分的識別枠組みに悲観的・機会論的戦略を取り入れて,推定方針を導出する。
論文 参考訳(メタデータ) (2024-11-12T19:09:41Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Utility Fairness in Contextual Dynamic Pricing with Demand Learning [23.26236046836737]
本稿では,ユーティリティフェアネス制約下でのパーソナライズされた価格設定のための新しいコンテキスト帯域幅アルゴリズムを提案する。
動的価格設定と需要学習を取り入れた当社のアプローチは,価格戦略における公正性の重要課題に対処する。
論文 参考訳(メタデータ) (2023-11-28T05:19:23Z) - Insurance pricing on price comparison websites via reinforcement
learning [7.023335262537794]
本稿では,モデルベースとモデルフリーの手法を統合することで,最適価格政策を学習する強化学習フレームワークを提案する。
また、オフラインデータセットを一貫した方法で価格ポリシーを評価することの重要性を強調した。
論文 参考訳(メタデータ) (2023-08-14T04:44:56Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Personalized Pricing with Invalid Instrumental Variables:
Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。
Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-24T14:50:47Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - On Parametric Optimal Execution and Machine Learning Surrogates [3.077531983369872]
本研究では,短時間の価格変動とレジリエンスを考慮した離散時間における最適順序実行問題について検討する。
動的プログラミングとディープラーニングに基づく数値アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-18T22:40:14Z) - Bayesian Bilinear Neural Network for Predicting the Mid-price Dynamics
in Limit-Order Book Markets [84.90242084523565]
伝統的な時系列計量法は、価格力学を駆動する多層相互作用の真の複雑さを捉えることができないことが多い。
最先端の2次最適化アルゴリズムを採用することで、時間的注意を払ってベイジアン双線形ニューラルネットワークを訓練する。
予測分布を用いて推定パラメータとモデル予測に関連する誤差や不確実性を解析することにより、ベイズモデルと従来のML代替品を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-07T18:59:54Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。