論文の概要: Dynamic pricing and assortment under a contextual MNL demand
- arxiv url: http://arxiv.org/abs/2110.10018v1
- Date: Tue, 19 Oct 2021 14:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 14:43:14.339456
- Title: Dynamic pricing and assortment under a contextual MNL demand
- Title(参考訳): 文脈的MNL需要下における動的価格と取り決め
- Authors: Vineet Goyal and Noemie Perivier
- Abstract要約: 我々は、T期間における未知の需要の下で、動的多製品価格とアソシエーション問題を考察する。
オンラインニュートンステップアルゴリズム(ONS)の変種に基づくランダム化動的価格ポリシーを提案する。
また,MNLの文脈帯域幅問題に対する新しい楽観的アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.1320960069210475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider dynamic multi-product pricing and assortment problems under an
unknown demand over T periods, where in each period, the seller decides on the
price for each product or the assortment of products to offer to a customer who
chooses according to an unknown Multinomial Logit Model (MNL). Such problems
arise in many applications, including online retail and advertising. We propose
a randomized dynamic pricing policy based on a variant of the Online Newton
Step algorithm (ONS) that achieves a $O(d\sqrt{T}\log(T))$ regret guarantee
under an adversarial arrival model. We also present a new optimistic algorithm
for the adversarial MNL contextual bandits problem, which achieves a better
dependency than the state-of-the-art algorithms in a problem-dependent constant
$\kappa$ (potentially exponentially small). Our regret upper bounds scale as
$\tilde{O}(d\sqrt{\kappa T}+ \log(T)/\kappa)$, which gives a significantly
stronger bound than the existing $\tilde{O}(d\sqrt{T}/\kappa)$ guarantees.
- Abstract(参考訳): 各期間において、販売者は、未知のMNL(Multinomial Logit Model)に基づいて選択した顧客に対して、各商品の価格または商品の価格を決定する。
このような問題は、オンライン小売や広告を含む多くのアプリケーションで発生する。
オンラインニュートンステップアルゴリズム (ons) の変種に基づくランダム化動的価格ポリシーを提案し, 敵対的到着モデルの下では$o(d\sqrt{t}\log(t))$ regret 保証を実現する。
また,問題依存定数$\kappa$ (潜在的に指数関数的に小さい) において,最先端アルゴリズムよりも優れた依存性を実現する,敵対的mnlコンテキストバンディット問題に対する新しい楽観的アルゴリズムを提案する。
我々の後悔の上界は $\tilde{O}(d\sqrt{\kappa T}+ \log(T)/\kappa)$ としてスケールし、既存の $\tilde{O}(d\sqrt{T}/\kappa)$ 保証よりもはるかに強い境界を与える。
関連論文リスト
- A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Contextual Dynamic Pricing: Algorithms, Optimality, and Local Differential Privacy Constraints [10.057344315478709]
企業が商品をT$で販売する状況的動的価格問題について検討する。
まず、最適後悔上限は、対数係数まで、次数$sqrtdT$であることを示す。
理論的結果の重要な洞察は、動的価格と文脈的マルチアームバンディット問題との本質的な関係である。
論文 参考訳(メタデータ) (2024-06-04T15:44:10Z) - The Real Price of Bandit Information in Multiclass Classification [73.17969992976501]
バンディットフィードバックを用いた複数クラス分類の古典的問題を再考する。
我々は, 後悔すべき$smashwidetildeO(|H|+sqrtT)$を保証する新しい帯域分類アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-16T12:11:09Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - Horizon-Free Reinforcement Learning in Polynomial Time: the Power of
Stationary Policies [88.75843804630772]
我々は既存の境界に対して,$Oleft(mathrmpoly(S,A,log K)sqrtKright)を後悔するアルゴリズムを設計する。
この結果は、定常政策の近似力、安定性、および濃度特性を確立する新しい構造補題の列に依存している。
論文 参考訳(メタデータ) (2022-03-24T08:14:12Z) - MNL-Bandit with Knapsacks: a near-optimal algorithm [2.3020018305241337]
我々は,販売者が定額でN$の代替品を在庫する動的アソシエーション選択問題を考える。
各期間において、売り手は顧客に提供すべき商品の品揃えを決定する必要がある。
MNLwK-UCB は,在庫規模がほぼ直線的に大きくなると,$tildeO(N + sqrtNT)$ regret bound が得られることを示す。
論文 参考訳(メタデータ) (2021-06-02T13:05:34Z) - Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。
この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。
本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文 参考訳(メタデータ) (2021-03-24T10:11:49Z) - Logarithmic Regret in Feature-based Dynamic Pricing [0.0]
機能ベースの動的価格設定は、差別化された製品の価格設定の人気が高まっているモデルです。
我々は、インフラクティゲンと敵対的な特徴設定のための2つのアルゴリズムを提供し、両方の最適$O(dlogT)$後悔境界を証明します。
さらに、より一般的な設定で$(sqrtt)$情報理論下限を証明し、"需要曲線の知識"が機能ベースの動的価格の指数関数的な改善につながることを実証します。
論文 参考訳(メタデータ) (2021-02-20T00:45:33Z) - A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit [2.9998316151418107]
我々は、意思決定者が消費者に製品のサブセットを提供する動的集合最適化問題を考える。
MNL(Multinomial Logit)モデルを用いて消費者選択行動のモデル化を行う。
後悔は$O(sqrtdT + kappa)$で束縛され、既存のメソッドよりもパフォーマンスが大幅に向上していることを示す。
論文 参考訳(メタデータ) (2020-11-28T00:20:36Z) - Fully Gap-Dependent Bounds for Multinomial Logit Bandit [5.132017939561661]
マルチノミアルロジット (MNL) バンディット問題について検討し、各ステップごとに、販売者は、N$アイテムのプールから最大でK$のサイズを提供する。
i) $widetildeO(sum_i = 1N Delta_i-2)$ time steps with high probability, (ii) $O(sum_i notin S* KDelta_i)というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-19T17:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。