Fugu-MT 論文翻訳(概要): Dynamic pricing and assortment under a contextual MNL demand

論文の概要: Dynamic pricing and assortment under a contextual MNL demand

arxiv url: http://arxiv.org/abs/2110.10018v1
Date: Tue, 19 Oct 2021 14:37:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-20 14:43:14.339456
Title: Dynamic pricing and assortment under a contextual MNL demand
Title（参考訳）: 文脈的MNL需要下における動的価格と取り決め
Authors: Vineet Goyal and Noemie Perivier
Abstract要約: 我々は、T期間における未知の需要の下で、動的多製品価格とアソシエーション問題を考察する。オンラインニュートンステップアルゴリズム(ONS)の変種に基づくランダム化動的価格ポリシーを提案する。また,MNLの文脈帯域幅問題に対する新しい楽観的アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 2.1320960069210475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider dynamic multi-product pricing and assortment problems under an unknown demand over T periods, where in each period, the seller decides on the price for each product or the assortment of products to offer to a customer who chooses according to an unknown Multinomial Logit Model (MNL). Such problems arise in many applications, including online retail and advertising. We propose a randomized dynamic pricing policy based on a variant of the Online Newton Step algorithm (ONS) that achieves a $O(d\sqrt{T}\log(T))$ regret guarantee under an adversarial arrival model. We also present a new optimistic algorithm for the adversarial MNL contextual bandits problem, which achieves a better dependency than the state-of-the-art algorithms in a problem-dependent constant $\kappa$ (potentially exponentially small). Our regret upper bounds scale as $\tilde{O}(d\sqrt{\kappa T}+ \log(T)/\kappa)$, which gives a significantly stronger bound than the existing $\tilde{O}(d\sqrt{T}/\kappa)$ guarantees.
Abstract（参考訳）: 各期間において、販売者は、未知のMNL(Multinomial Logit Model)に基づいて選択した顧客に対して、各商品の価格または商品の価格を決定する。このような問題は、オンライン小売や広告を含む多くのアプリケーションで発生する。オンラインニュートンステップアルゴリズム (ons) の変種に基づくランダム化動的価格ポリシーを提案し, 敵対的到着モデルの下では$o(d\sqrt{t}\log(t))$ regret 保証を実現する。また,問題依存定数$\kappa$ (潜在的に指数関数的に小さい) において,最先端アルゴリズムよりも優れた依存性を実現する,敵対的mnlコンテキストバンディット問題に対する新しい楽観的アルゴリズムを提案する。我々の後悔の上界は $\tilde{O}(d\sqrt{\kappa T}+ \log(T)/\kappa)$ としてスケールし、既存の $\tilde{O}(d\sqrt{T}/\kappa)$ 保証よりもはるかに強い境界を与える。

関連論文リスト

Enjoying Non-linearity in Multinomial Logistic Bandits [66.36004256710824]
我々は,学習者が環境と対話する一般化線形帯域幅の変種である多項ロジスティック帯域幅問題を考察する。我々は、$kappa_*$の定義を多項集合に拡張し、問題の非線形性を活用する効率的なアルゴリズムを提案する。我々のメソッドは、代入$ smashwidetildemathcalO(Kd sqrtT/kappa_*) $, $K$はアクションの数で、$kappa_*
論文参考訳（メタデータ） (2025-07-07T08:18:25Z)
Dynamic Assortment Selection and Pricing with Censored Preference Feedback [10.988222071035198]
本稿では,テキストセンタ型マルチノミアルロジット(C-MNL)選択モデルに基づく新しいフレームワークを提案する。売り手は価格で一連の商品を提示し、買い手は価格より高い価格で商品をフィルタリングし、残りの選択肢から少なくとも1つの商品を購入する。我々のアルゴリズムは $tildeO(dfrac32sqrtT/kappa)$ と $tildeO(d2sqrtT/kappa) の残差を実現する。
論文参考訳（メタデータ） (2025-04-03T06:56:08Z)
Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
マルチステップ優先最適化(MPO)は、自然なアクター批判フレームワークciteprakhlin2013online,joulani17a上に構築されている。我々はOMPOが$mathcalO(epsilon-1)$ポリシー更新を必要とし、$epsilon$-approximate Nash平衡に収束することを示した。また,本手法がマルチターン会話データセットと数理推論データセットに与える影響についても検証した。
論文参考訳（メタデータ） (2025-02-18T09:33:48Z)
A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文参考訳（メタデータ） (2024-07-08T09:55:31Z)
Contextual Dynamic Pricing: Algorithms, Optimality, and Local Differential Privacy Constraints [10.057344315478709]
企業が商品をT$で販売する状況的動的価格問題について検討する。まず、最適後悔上限は、対数係数まで、次数$sqrtdT$であることを示す。理論的結果の重要な洞察は、動的価格と文脈的マルチアームバンディット問題との本質的な関係である。
論文参考訳（メタデータ） (2024-06-04T15:44:10Z)
The Real Price of Bandit Information in Multiclass Classification [73.17969992976501]
バンディットフィードバックを用いた複数クラス分類の古典的問題を再考する。我々は, 後悔すべき$smashwidetildeO(|H|+sqrtT)$を保証する新しい帯域分類アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-16T12:11:09Z)
Pricing with Contextual Elasticity and Heteroscedastic Valuation [23.96777734246062]
我々は、顧客がその特徴と価格に基づいて商品を購入するかどうかを決めるオンラインコンテキスト動的価格問題について検討する。本稿では,機能に基づく価格弾力性の導入により,顧客の期待する需要をモデル化する新たなアプローチを提案する。我々の結果は、文脈的弾力性とヘテロセダスティックな評価の関係に光を当て、効果的で実用的な価格戦略の洞察を与えました。
論文参考訳（メタデータ） (2023-12-26T11:07:37Z)
Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文参考訳（メタデータ） (2022-12-12T21:37:36Z)
A Reinforcement Learning Approach in Multi-Phase Second-Price Auction Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文参考訳（メタデータ） (2022-10-19T03:49:05Z)
Horizon-Free Reinforcement Learning in Polynomial Time: the Power of Stationary Policies [88.75843804630772]
我々は既存の境界に対して,$Oleft(mathrmpoly(S,A,log K)sqrtKright)を後悔するアルゴリズムを設計する。この結果は、定常政策の近似力、安定性、および濃度特性を確立する新しい構造補題の列に依存している。
論文参考訳（メタデータ） (2022-03-24T08:14:12Z)
MNL-Bandit with Knapsacks: a near-optimal algorithm [2.3020018305241337]
我々は,販売者が定額でN$の代替品を在庫する動的アソシエーション選択問題を考える。各期間において、売り手は顧客に提供すべき商品の品揃えを決定する必要がある。 MNLwK-UCB は,在庫規模がほぼ直線的に大きくなると,$tildeO(N + sqrtNT)$ regret bound が得られることを示す。
論文参考訳（メタデータ） (2021-06-02T13:05:34Z)
Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文参考訳（メタデータ） (2021-03-24T10:11:49Z)
Logarithmic Regret in Feature-based Dynamic Pricing [0.0]
機能ベースの動的価格設定は、差別化された製品の価格設定の人気が高まっているモデルです。我々は、インフラクティゲンと敵対的な特徴設定のための2つのアルゴリズムを提供し、両方の最適$O(dlogT)$後悔境界を証明します。さらに、より一般的な設定で$(sqrtt)$情報理論下限を証明し、"需要曲線の知識"が機能ベースの動的価格の指数関数的な改善につながることを実証します。
論文参考訳（メタデータ） (2021-02-20T00:45:33Z)
A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit [2.9998316151418107]
我々は、意思決定者が消費者に製品のサブセットを提供する動的集合最適化問題を考える。 MNL(Multinomial Logit)モデルを用いて消費者選択行動のモデル化を行う。後悔は$O(sqrtdT + kappa)$で束縛され、既存のメソッドよりもパフォーマンスが大幅に向上していることを示す。
論文参考訳（メタデータ） (2020-11-28T00:20:36Z)
Fully Gap-Dependent Bounds for Multinomial Logit Bandit [5.132017939561661]
マルチノミアルロジット (MNL) バンディット問題について検討し、各ステップごとに、販売者は、N$アイテムのプールから最大でK$のサイズを提供する。 i) $widetildeO(sum_i = 1N Delta_i-2)$ time steps with high probability, (ii) $O(sum_i notin S* KDelta_i)というアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-19T17:52:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。