論文の概要: Policy Optimization Using Semiparametric Models for Dynamic Pricing
- arxiv url: http://arxiv.org/abs/2109.06368v1
- Date: Mon, 13 Sep 2021 23:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:44:00.028179
- Title: Policy Optimization Using Semiparametric Models for Dynamic Pricing
- Title(参考訳): 動的価格決定のためのセミパラメトリックモデルを用いたポリシー最適化
- Authors: Jianqing Fan, Yongyi Guo, Mengxin Yu
- Abstract要約: 商品の市場価値が観測された特徴と市場ノイズに線形である状況的動的価格問題について検討する。
一般化線形モデルからの半パラメトリック推定と未知のリンクとオンライン意思決定を組み合わせた動的統計的学習と意思決定ポリシーを提案する。
- 参考スコア(独自算出の注目度): 1.3428344011390776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the contextual dynamic pricing problem where the
market value of a product is linear in its observed features plus some market
noise. Products are sold one at a time, and only a binary response indicating
success or failure of a sale is observed. Our model setting is similar to
Javanmard and Nazerzadeh [2019] except that we expand the demand curve to a
semiparametric model and need to learn dynamically both parametric and
nonparametric components. We propose a dynamic statistical learning and
decision-making policy that combines semiparametric estimation from a
generalized linear model with an unknown link and online decision-making to
minimize regret (maximize revenue). Under mild conditions, we show that for a
market noise c.d.f. $F(\cdot)$ with $m$-th order derivative ($m\geq 2$), our
policy achieves a regret upper bound of $\tilde{O}_{d}(T^{\frac{2m+1}{4m-1}})$,
where $T$ is time horizon and $\tilde{O}_{d}$ is the order that hides
logarithmic terms and the dimensionality of feature $d$. The upper bound is
further reduced to $\tilde{O}_{d}(\sqrt{T})$ if $F$ is super smooth whose
Fourier transform decays exponentially. In terms of dependence on the horizon
$T$, these upper bounds are close to $\Omega(\sqrt{T})$, the lower bound where
$F$ belongs to a parametric class. We further generalize these results to the
case with dynamically dependent product features under the strong mixing
condition.
- Abstract(参考訳): 本稿では,商品の市場価値が観測された特徴量と市場のノイズで線形である状況動的価格問題について検討する。
商品は一度に1つ販売され、販売の成功または失敗を示す二分応答のみが観察される。
我々のモデル設定はJavanmardやNazerzadeh [2019]と似ているが、需要曲線を半パラメトリックモデルに拡張し、パラメトリック成分と非パラメトリック成分の両方を動的に学習する必要がある。
一般化線形モデルからの半パラメトリック推定と未知リンクとオンライン意思決定を組み合わせた動的統計学習と意思決定政策を提案し,後悔(収益の最大化)を最小限に抑える。
穏やかな条件下では、市場のノイズ c.d.f. $f(\cdot)$ が $m$-th order derivative (m\geq 2$) を持つ場合、我々のポリシーは$t$ が時平線である$\tilde{o}_{d}(t^{\frac{2m+1}{4m-1}})$ の残念な上限を達成し、$\tilde{o}_{d}$ は対数項と特徴 $d$ の次元性を隠す順序である。
上界はさらに$\tilde{O}_{d}(\sqrt{T})$に還元される:$F$が超滑らかでフーリエ変換が指数関数的に崩壊する。
地平線$T$への依存に関して、これらの上界は$\Omega(\sqrt{T})$に近く、$F$がパラメトリック類に属する下界である。
さらに, これらの結果を, 強い混合条件下で動的に依存する製品の特徴を持つ場合に一般化する。
関連論文リスト
- Joint Learning of Linear Dynamical Systems under Smoothness Constraints [5.2395896768723045]
複数の線形力学系の連立学習の問題点を考察する。
特に,平均二乗誤差が平均二乗誤差(MSE)に収束する条件を示す。
論文 参考訳(メタデータ) (2024-06-03T08:29:42Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Model approximation in MDPs with unbounded per-step cost [3.456139143869137]
我々は、無限水平割引コストのMarkov決定プロセス$mathcalM$に対して、近似モデル$hatmathcalM$にしかアクセスできない場合に制御ポリシーを設計する問題を考える。
最適なポリシー$hatpistar$は、オリジナルのモデル$mathcalM$で使用される場合、どの程度機能しますか?
コスト関数間の重み付き距離と、原モデルと近似モデルの遷移核間の重み付き距離に明示的に依存する上限を提供する。
論文 参考訳(メタデータ) (2024-02-13T21:36:30Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [59.65871549878937]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Dynamic Pricing and Learning under the Bass Model [16.823029377470366]
マーケットサイズが$m$である場合、オーダー$tilde O(m2/3)$の確率後悔保証を満足するアルゴリズムを開発する。
多くの後悔の分析結果とは異なり、現在の問題では市場規模$m$が複雑さの基本的な要因である。
論文 参考訳(メタデータ) (2021-03-09T03:27:33Z) - Logarithmic Regret in Feature-based Dynamic Pricing [0.0]
機能ベースの動的価格設定は、差別化された製品の価格設定の人気が高まっているモデルです。
我々は、インフラクティゲンと敵対的な特徴設定のための2つのアルゴリズムを提供し、両方の最適$O(dlogT)$後悔境界を証明します。
さらに、より一般的な設定で$(sqrtt)$情報理論下限を証明し、"需要曲線の知識"が機能ベースの動的価格の指数関数的な改善につながることを実証します。
論文 参考訳(メタデータ) (2021-02-20T00:45:33Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Model-Based Reinforcement Learning with Value-Targeted Regression [48.92439657407732]
我々は、遷移モデル $P$ が既知のモデルの族 $mathcalP$ に属する有限水平エピソード RL に焦点を当てる。
線形混合の特別な場合において、後悔束は $tildemathcalO(dsqrtH3T)$ という形を取る。
論文 参考訳(メタデータ) (2020-06-01T17:47:53Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。