論文の概要: Markdown Pricing Under an Unknown Parametric Demand Model
- arxiv url: http://arxiv.org/abs/2312.15286v1
- Date: Sat, 23 Dec 2023 16:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:52:49.426358
- Title: Markdown Pricing Under an Unknown Parametric Demand Model
- Title(参考訳): 未知パラメトリック需要モデルによるマークダウン価格設定
- Authors: Su Jia, Andrew Li, R. Ravi
- Abstract要約: 本研究では、特定の家族から来る未知の需要モデルを用いて、販売者が単調にn$ラウンドで価格を下げる単一商品収益最大化問題について検討する。
単調性がない場合、ミニマックスの後悔はリプシッツの要求族に対して$tilde O(n2/3)$である。
単調性では、ミニマックスの後悔は、パラメトリック需要モデルの一般的なクラスに対して$tilde O(n1/2)$である。
- 参考スコア(独自算出の注目度): 8.466981970937336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider a single-product revenue-maximization problem where the seller
monotonically decreases the price in $n$ rounds with an unknown demand model
coming from a given family. Without monotonicity, the minimax regret is $\tilde
O(n^{2/3})$ for the Lipschitz demand family and $\tilde O(n^{1/2})$ for a
general class of parametric demand models. With monotonicity, the minimax
regret is $\tilde O(n^{3/4})$ if the revenue function is Lipschitz and
unimodal. However, the minimax regret for parametric families remained open. In
this work, we provide a complete settlement for this fundamental problem. We
introduce the crossing number to measure the complexity of a family of demand
functions. In particular, the family of degree-$k$ polynomials has a crossing
number $k$. Based on conservatism under uncertainty, we present (i) a policy
with an optimal $\Theta(\log^2 n)$ regret for families with crossing number
$k=0$, and (ii) another policy with an optimal $\tilde \Theta(n^{k/(k+1)})$
regret when $k\ge 1$. These bounds are asymptotically higher than the $\tilde
O(\log n)$ and $\tilde \Theta(\sqrt n)$ minimax regret for the same families
without the monotonicity constraint.
- Abstract(参考訳): 販売者が特定の家族から来る未知の需要モデルを用いて、単調にn$ラウンドで価格を下げる単一商品収益最大化問題を考える。
単調性がない場合、ミニマックス後悔はリプシッツ需要族に対して$\tilde O(n^{2/3})$、パラメトリック需要モデルの一般的なクラスに対して$\tilde O(n^{1/2})$である。
単調性において、ミニマックスの後悔は、収入関数がリプシッツとユニモーダルであれば$\tilde o(n^{3/4})$である。
しかし、パラメトリック家族に対するミニマックスの後悔は未解決のままであった。
この研究において、我々はこの根本的な問題を完全に解決する。
需要関数のファミリーの複雑さを測定するために交差数を導入する。
特に、次数-$k$多項式の族は交叉数$k$を持つ。
不確実性下での保守主義に基づいて
(i)交叉数$k=0$の家族に対して最適な$\theta(\log^2 n)$の方針
(ii)$k\ge 1$のとき、最適$\tilde \Theta(n^{k/(k+1)})$ regretの別のポリシー。
これらの境界は、単調性制約のない同じ族に対して $\tilde O(\log n)$ と $\tilde \Theta(\sqrt n)$ minimax regret よりも漸近的に高い。
関連論文リスト
- Efficient Continual Finite-Sum Minimization [52.5238287567572]
連続有限サム最小化(continuous finite-sum minimization)と呼ばれる有限サム最小化の鍵となるツイストを提案する。
我々のアプローチは$mathcalO(n/epsilon)$ FOs that $mathrmStochasticGradientDescent$で大幅に改善されます。
また、$mathcalOleft(n/epsilonalpharight)$ complexity gradient for $alpha 1/4$という自然な一階法は存在しないことを証明し、この方法の第一階法がほぼ密であることを示す。
論文 参考訳(メタデータ) (2024-06-07T08:26:31Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Improved Regret Analysis for Variance-Adaptive Linear Bandits and
Horizon-Free Linear Mixture MDPs [12.450760567361531]
オンライン学習問題では,低分散の活用がパフォーマンス保証の厳密化に重要な役割を果たしている。
本研究は, 後悔の限界を著しく改善する新たな分析法を提案する。
我々の分析は、新しい楕円型ポテンシャル数補題に依存している。
論文 参考訳(メタデータ) (2021-11-05T06:47:27Z) - Policy Optimization Using Semiparametric Models for Dynamic Pricing [1.3428344011390776]
商品の市場価値が観測された特徴と市場ノイズに線形である状況的動的価格問題について検討する。
一般化線形モデルからの半パラメトリック推定と未知のリンクとオンライン意思決定を組み合わせた動的統計的学習と意思決定ポリシーを提案する。
論文 参考訳(メタデータ) (2021-09-13T23:50:01Z) - Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。
この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。
本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文 参考訳(メタデータ) (2021-03-24T10:11:49Z) - Model-Based Reinforcement Learning with Value-Targeted Regression [48.92439657407732]
我々は、遷移モデル $P$ が既知のモデルの族 $mathcalP$ に属する有限水平エピソード RL に焦点を当てる。
線形混合の特別な場合において、後悔束は $tildemathcalO(dsqrtH3T)$ という形を取る。
論文 参考訳(メタデータ) (2020-06-01T17:47:53Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - Near-optimal Regret Bounds for Stochastic Shortest Path [63.029132134792555]
最短経路 (SSP) は計画と制御においてよく知られた問題であり、エージェントは最小の総コストで目標状態に到達する必要がある。
任意の学習アルゴリズムは、最悪の場合、少なくとも$Omega(B_star sqrt|S| |A|K)$後悔しなければならない。
論文 参考訳(メタデータ) (2020-02-23T09:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。