論文の概要: Dynamic pricing and assortment under a contextual MNL demand
- arxiv url: http://arxiv.org/abs/2110.10018v1
- Date: Tue, 19 Oct 2021 14:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 14:43:14.339456
- Title: Dynamic pricing and assortment under a contextual MNL demand
- Title(参考訳): 文脈的MNL需要下における動的価格と取り決め
- Authors: Vineet Goyal and Noemie Perivier
- Abstract要約: 我々は、T期間における未知の需要の下で、動的多製品価格とアソシエーション問題を考察する。
オンラインニュートンステップアルゴリズム(ONS)の変種に基づくランダム化動的価格ポリシーを提案する。
また,MNLの文脈帯域幅問題に対する新しい楽観的アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.1320960069210475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider dynamic multi-product pricing and assortment problems under an
unknown demand over T periods, where in each period, the seller decides on the
price for each product or the assortment of products to offer to a customer who
chooses according to an unknown Multinomial Logit Model (MNL). Such problems
arise in many applications, including online retail and advertising. We propose
a randomized dynamic pricing policy based on a variant of the Online Newton
Step algorithm (ONS) that achieves a $O(d\sqrt{T}\log(T))$ regret guarantee
under an adversarial arrival model. We also present a new optimistic algorithm
for the adversarial MNL contextual bandits problem, which achieves a better
dependency than the state-of-the-art algorithms in a problem-dependent constant
$\kappa$ (potentially exponentially small). Our regret upper bounds scale as
$\tilde{O}(d\sqrt{\kappa T}+ \log(T)/\kappa)$, which gives a significantly
stronger bound than the existing $\tilde{O}(d\sqrt{T}/\kappa)$ guarantees.
- Abstract(参考訳): 各期間において、販売者は、未知のMNL(Multinomial Logit Model)に基づいて選択した顧客に対して、各商品の価格または商品の価格を決定する。
このような問題は、オンライン小売や広告を含む多くのアプリケーションで発生する。
オンラインニュートンステップアルゴリズム (ons) の変種に基づくランダム化動的価格ポリシーを提案し, 敵対的到着モデルの下では$o(d\sqrt{t}\log(t))$ regret 保証を実現する。
また,問題依存定数$\kappa$ (潜在的に指数関数的に小さい) において,最先端アルゴリズムよりも優れた依存性を実現する,敵対的mnlコンテキストバンディット問題に対する新しい楽観的アルゴリズムを提案する。
我々の後悔の上界は $\tilde{O}(d\sqrt{\kappa T}+ \log(T)/\kappa)$ としてスケールし、既存の $\tilde{O}(d\sqrt{T}/\kappa)$ 保証よりもはるかに強い境界を与える。
関連論文リスト
- Dynamic Pricing and Learning with Bayesian Persuasion [18.59029578133633]
我々は,商品の価格設定に加えて,販売者が「広告計画」にコミットする,新たな動的価格設定と学習環境を考える。
我々は、バイエルンの一般的な説得フレームワークを使用して、これらのシグナルが購入者の評価と購入反応に与える影響をモデル化する。
我々は、過去の購入応答を利用して最適な価格と広告戦略を適応的に学習できるオンラインアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-27T17:52:06Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - Horizon-Free Reinforcement Learning in Polynomial Time: the Power of
Stationary Policies [88.75843804630772]
我々は既存の境界に対して,$Oleft(mathrmpoly(S,A,log K)sqrtKright)を後悔するアルゴリズムを設計する。
この結果は、定常政策の近似力、安定性、および濃度特性を確立する新しい構造補題の列に依存している。
論文 参考訳(メタデータ) (2022-03-24T08:14:12Z) - MNL-Bandit with Knapsacks: a near-optimal algorithm [2.3020018305241337]
我々は,販売者が定額でN$の代替品を在庫する動的アソシエーション選択問題を考える。
各期間において、売り手は顧客に提供すべき商品の品揃えを決定する必要がある。
MNLwK-UCB は,在庫規模がほぼ直線的に大きくなると,$tildeO(N + sqrtNT)$ regret bound が得られることを示す。
論文 参考訳(メタデータ) (2021-06-02T13:05:34Z) - Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。
この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。
本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文 参考訳(メタデータ) (2021-03-24T10:11:49Z) - Logarithmic Regret in Feature-based Dynamic Pricing [0.0]
機能ベースの動的価格設定は、差別化された製品の価格設定の人気が高まっているモデルです。
我々は、インフラクティゲンと敵対的な特徴設定のための2つのアルゴリズムを提供し、両方の最適$O(dlogT)$後悔境界を証明します。
さらに、より一般的な設定で$(sqrtt)$情報理論下限を証明し、"需要曲線の知識"が機能ベースの動的価格の指数関数的な改善につながることを実証します。
論文 参考訳(メタデータ) (2021-02-20T00:45:33Z) - A Tractable Online Learning Algorithm for the Multinomial Logit
Contextual Bandit [3.2771005331085687]
我々は、意思決定者が消費者に製品のサブセットを提供する動的集合最適化問題を考える。
MNL(Multinomial Logit)モデルを用いて消費者選択行動のモデル化を行う。
後悔は$O(sqrtdT + kappa)$で束縛され、既存のメソッドよりもパフォーマンスが大幅に向上していることを示す。
論文 参考訳(メタデータ) (2020-11-28T00:20:36Z) - Fully Gap-Dependent Bounds for Multinomial Logit Bandit [5.132017939561661]
マルチノミアルロジット (MNL) バンディット問題について検討し、各ステップごとに、販売者は、N$アイテムのプールから最大でK$のサイズを提供する。
i) $widetildeO(sum_i = 1N Delta_i-2)$ time steps with high probability, (ii) $O(sum_i notin S* KDelta_i)というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-19T17:52:12Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。