論文の概要: Logarithmic Regret in Feature-based Dynamic Pricing
- arxiv url: http://arxiv.org/abs/2102.10221v1
- Date: Sat, 20 Feb 2021 00:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:10:51.343585
- Title: Logarithmic Regret in Feature-based Dynamic Pricing
- Title(参考訳): 特徴量に基づく動的価格設定における対数回帰
- Authors: Jianyu Xu and Yu-xiang Wang (Computer Science Department, UC Santa
Barbara)
- Abstract要約: 機能ベースの動的価格設定は、差別化された製品の価格設定の人気が高まっているモデルです。
我々は、インフラクティゲンと敵対的な特徴設定のための2つのアルゴリズムを提供し、両方の最適$O(dlogT)$後悔境界を証明します。
さらに、より一般的な設定で$(sqrtt)$情報理論下限を証明し、"需要曲線の知識"が機能ベースの動的価格の指数関数的な改善につながることを実証します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature-based dynamic pricing is an increasingly popular model of setting
prices for highly differentiated products with applications in digital
marketing, online sales, real estate and so on. The problem was formally
studied as an online learning problem (Cohen et al., 2016; Javanmard &
Nazerzadeh, 2019) where a seller needs to propose prices on the fly for a
sequence of $T$ products based on their features $x$ while having a small
regret relative to the best -- "omniscient" -- pricing strategy she could have
come up with in hindsight. We revisit this problem and provide two algorithms
(EMLP and ONSP) for stochastic and adversarial feature settings, respectively,
and prove the optimal $O(d\log{T})$ regret bounds for both. In comparison, the
best existing results are $O\left(\min\left\{\frac{1}{\lambda_{\min}^2}\log{T},
\sqrt{T}\right\}\right)$ and $O(T^{2/3})$ respectively, with $\lambda_{\min}$
being the smallest eigenvalue of $\mathbb{E}[xx^T]$ that could be arbitrarily
close to $0$. We also prove an $\Omega(\sqrt{T})$ information-theoretic lower
bound for a slightly more general setting, which demonstrates that
"knowing-the-demand-curve" leads to an exponential improvement in feature-based
dynamic pricing.
- Abstract(参考訳): 機能ベースの動的価格設定は、デジタルマーケティング、オンライン販売、不動産など、高度に差別化された製品の価格設定のモデルとして人気が高まっている。
この問題は、オンライン学習の問題として公式に研究され(Cohen et al., 2016; Javanmard & Nazerzadeh, 2019)、売り手は、最高の -- "万能" -- に対して小さな後悔をしながらも、その機能に基づいた一連のT$製品に対して、すぐに価格を提示する必要がある。
この問題を再検討し,確率的特徴設定と敵対的特徴設定のための2つのアルゴリズム(emlpとonsp)を提供し,両者に対して最適な$o(d\log{t})$ regretboundsを証明する。
比較すると、最良の既存の結果は $O\left(\min\left\{\frac{1}{\lambda_{\min}^2}\log{T}, \sqrt{T}\right\}\right)$ と $O(T^{2/3})$ であり、$\lambda_{\min}$ は $\mathbb{E}[xx^T]$ の最小固有値であり、$0$ に任意に近づくことができる。
また、より一般的な設定では、$\Omega(\sqrt{T})$ information-theoretic lower bound を証明し、"knowing-the-demand-curve" が機能ベースの動的価格を指数関数的に改善することを示した。
関連論文リスト
- Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Optimism in Face of a Context: Regret Guarantees for Stochastic
Contextual MDP [46.86114958340962]
我々は,最小到達可能性仮定の下での文脈的MDPに対する後悔のアルゴリズムを提案する。
我々のアプローチは、一般関数近似を用いた文脈的MDPに適用された最初の楽観的アプローチである。
論文 参考訳(メタデータ) (2022-07-22T15:00:15Z) - Towards Agnostic Feature-based Dynamic Pricing: Linear Policies vs
Linear Valuation with Unknown Noise [16.871660060209674]
我々は,$tildeO(Tfrac34)$の後悔を実現するアルゴリズムを示し,$Omega(Tfrac35)$から$tildeOmega(Tfrac23)$への最もよく知られた下限を改善する。
その結果, 弱い仮定の下では, 特徴量に基づく動的価格設定が可能であることが示唆された。
論文 参考訳(メタデータ) (2022-01-27T06:40:03Z) - Logarithmic Regret from Sublinear Hints [76.87432703516942]
自然クエリモデルにより,アルゴリズムが$O(log T)$ regretsを$O(sqrtT)$ hintsで得ることを示す。
また、$o(sqrtT)$ hintsは$Omega(sqrtT)$ regretより保証できないことも示しています。
論文 参考訳(メタデータ) (2021-11-09T16:50:18Z) - Policy Optimization Using Semiparametric Models for Dynamic Pricing [1.3428344011390776]
商品の市場価値が観測された特徴と市場ノイズに線形である状況的動的価格問題について検討する。
一般化線形モデルからの半パラメトリック推定と未知のリンクとオンライン意思決定を組み合わせた動的統計的学習と意思決定ポリシーを提案する。
論文 参考訳(メタデータ) (2021-09-13T23:50:01Z) - Online Convex Optimization with Continuous Switching Constraint [78.25064451417082]
連続的なスイッチング制約を伴うオンライン凸最適化の問題を紹介する。
強い凸関数の場合、後悔境界は$O(log T)$ for $S=Omega(log T)$、$O(minT/exp(S)+S,T)$ for $S=O(log T)$に改善できることを示す。
論文 参考訳(メタデータ) (2021-03-21T11:43:35Z) - Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$
Geometry [69.24618367447101]
対数要因まで $(varepsilon,delta)$-differently private の最適過剰人口損失は $sqrtlog(d)/n + sqrtd/varepsilon n.$ です。
損失関数がさらなる滑らかさの仮定を満たすとき、余剰損失は$sqrtlog(d)/n + (log(d)/varepsilon n)2/3で上界(対数因子まで)であることが示される。
論文 参考訳(メタデータ) (2021-03-02T06:53:44Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z) - Optimal Contextual Pricing and Extensions [32.152826900874075]
このアルゴリズムは$Omega(d log T)$ lower bound up to the $d log d$ additive factor。
これらのアルゴリズムは、凸領域のスタイナー固有値を様々なスケールで有界化する新しい手法に基づいている。
論文 参考訳(メタデータ) (2020-03-03T18:46:29Z) - Logistic Regression Regret: What's the Catch? [3.7311680121118345]
パラメータに対する$L_infty$制約の下で、対数的後悔を伴う下界を導出する。
L$の制約については、十分に大きな$d$の場合、後悔は$d$で線形であるが、$T$で対数化されなくなることが示されている。
論文 参考訳(メタデータ) (2020-02-07T18:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。