論文の概要: Phase Transitions in Learning and Earning under Price Protection
Guarantee
- arxiv url: http://arxiv.org/abs/2211.01798v1
- Date: Thu, 3 Nov 2022 13:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:32:24.581003
- Title: Phase Transitions in Learning and Earning under Price Protection
Guarantee
- Title(参考訳): 価格保証下での学習と収益の相転移
- Authors: Qing Feng and Ruihao Zhu and Stefanus Jasin
- Abstract要約: データ駆動型動的価格設定のためのオンライン学習アルゴリズムの設計にこのようなポリシーが与える影響について検討する。
最適な後悔は、まず基本的な不可能な体制を確立することで$tildeTheta(sqrtT+minM,,T2/3)$であることを示す。
我々は,下線プライス保護下でのアンダーライン学習とアンダーライン学習のための位相探索型アルゴリズムLEAPを提案する。
- 参考スコア(独自算出の注目度): 4.683806391173103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the prevalence of ``price protection guarantee", which allows a
customer who purchased a product in the past to receive a refund from the
seller during the so-called price protection period (typically defined as a
certain time window after the purchase date) in case the seller decides to
lower the price, we study the impact of such policy on the design of online
learning algorithm for data-driven dynamic pricing with initially unknown
customer demand. We consider a setting where a firm sells a product over a
horizon of $T$ time steps. For this setting, we characterize how the value of
$M$, the length of price protection period, can affect the optimal regret of
the learning process. We show that the optimal regret is
$\tilde{\Theta}(\sqrt{T}+\min\{M,\,T^{2/3}\})$ by first establishing a
fundamental impossible regime with novel regret lower bound instances. Then, we
propose LEAP, a phased exploration type algorithm for \underline{L}earning and
\underline{EA}rning under \underline{P}rice Protection to match this lower
bound up to logarithmic factors or even doubly logarithmic factors (when there
are only two prices available to the seller). Our results reveal the surprising
phase transitions of the optimal regret with respect to $M$. Specifically, when
$M$ is not too large, the optimal regret has no major difference when compared
to that of the classic setting with no price protection guarantee. We also show
that there exists an upper limit on how much the optimal regret can deteriorate
when $M$ grows large. Finally, we conduct extensive numerical experiments to
show the benefit of LEAP over other heuristic methods for this problem.
- Abstract(参考訳): 商品を過去に購入した顧客は、いわゆる価格保護期間(通常、購入日以降の一定の時間窓として定義される)に売り手から返金を受けることができる「価格保護保証」が普及したことにより、売り手が価格を下げることを決定した場合、当初不明な顧客需要を伴うデータ駆動動的価格設定のためのオンライン学習アルゴリズムの設計に対するそのようなポリシーの影響について検討する。
私たちは、会社がt$の時間ステップで製品を販売できるような設定を考えています。
この設定のために、価格保護期間の長さである$m$の値が学習プロセスの最適な後悔にどのように影響するかを特徴付ける。
最適な後悔は$\tilde{\Theta}(\sqrt{T}+\min\{M,\,T^{2/3}\})$であることを示す。
そこで, LEAPを提案する。これは, 対数的要因や二重対数的要因(販売者が利用できる価格が2つしかない場合に限る)に対して, 対数的要因にこの下限を合わせるために, \underline{L}earning と \underline{EA}rning の次数的探索型アルゴリズムである。
以上の結果から,M$に対する最適後悔の相転移が明らかとなった。
具体的には、M$が大きすぎる場合、最適の後悔は、価格保護の保証のない古典的な設定と比べて大きな違いはない。
また、M$が大きくなると最適な後悔がどれだけ悪化するかには上限があることも示している。
最後に,この問題に対する他のヒューリスティックな手法を乗り越える利点を示すために,広範な数値実験を行う。
関連論文リスト
- Improved Algorithms for Contextual Dynamic Pricing [24.530341596901476]
コンテキスト動的価格設定では、売り手はコンテキスト情報に基づいて商品を順次価格設定する。
提案アルゴリズムは,$tildemathcalO(T2/3)$の最適再帰限界を達成し,既存の結果を改善する。
このモデルに対して,我々のアルゴリズムは,文脈空間の次元を$d$とする,後悔の$tildemathcalO(Td+2beta/d+3beta)$を得る。
論文 参考訳(メタデータ) (2024-06-17T08:26:51Z) - Dynamic Pricing and Learning with Long-term Reference Effects [16.07344044662994]
本研究では,販売者が提示した過去の価格の基準価格が平均値となる,シンプルで斬新な参照価格メカニズムについて検討する。
このメカニズムの下では,モデルパラメータに関係なく,マークダウンポリシがほぼ最適であることを示す。
次に、需要モデルパラメータが不明な、より困難な動的価格と学習の問題について検討する。
論文 参考訳(メタデータ) (2024-02-19T21:36:54Z) - Dynamic Pricing and Learning with Bayesian Persuasion [18.59029578133633]
我々は,商品の価格設定に加えて,販売者が「広告計画」にコミットする,新たな動的価格設定と学習環境を考える。
我々は、バイエルンの一般的な説得フレームワークを使用して、これらのシグナルが購入者の評価と購入反応に与える影響をモデル化する。
我々は、過去の購入応答を利用して最適な価格と広告戦略を適応的に学習できるオンラインアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-27T17:52:06Z) - Repeated Bilateral Trade Against a Smoothed Adversary [5.939280057673226]
我々は、アダプティブ$sigma$-smooth敵が売り手と買い手のバリュエーションを生成する二国間取引について検討する。
本研究では、異なるフィードバックモデルの下での固定価格機構に対する後悔状態の完全な特徴付けを行う。
論文 参考訳(メタデータ) (2023-02-21T16:30:10Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Complete Policy Regret Bounds for Tallying Bandits [51.039677652803675]
政策後悔は、適応的な敵に対してオンライン学習アルゴリズムのパフォーマンスを測定するという、よく確立された概念である。
我々は,不完全な政策後悔を効果的に最小化できる敵の制限について検討する。
我々は、$tildemathcalO(mKsqrtT)$の完全なポリシーを後悔するアルゴリズムを提供し、$tildemathcalO$表記は対数要素だけを隠す。
論文 参考訳(メタデータ) (2022-04-24T03:10:27Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。
この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。
本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文 参考訳(メタデータ) (2021-03-24T10:11:49Z) - Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。
最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文 参考訳(メタデータ) (2021-01-31T16:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。