論文の概要: Online Assortment and Price Optimization Under Contextual Choice Models
- arxiv url: http://arxiv.org/abs/2503.11819v1
- Date: Fri, 14 Mar 2025 19:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:36.277809
- Title: Online Assortment and Price Optimization Under Contextual Choice Models
- Title(参考訳): 文脈選択モデルに基づくオンラインアソシエーションと価格最適化
- Authors: Yigit Efe Erginbas, Thomas A. Courtade, Kannan Ramchandran,
- Abstract要約: 我々は、販売者が販売可能なさまざまなアイテムをN$で販売する、品揃え選択と価格設定の問題を考える。
各ラウンドにおいて、販売者は、ユーザに対して、$d$次元のコンテキスト優先情報ベクタを観察し、販売者が選択した価格で、ユーザに対して$K$アイテムを提供する。
利用者は、パラメータが不明な多項ロジット選択モデルに従って、提供された品目から少なくとも1つの商品を選択する。
我々は,ユーザのフィードバックから学習し,$widetildeO(d sqrtK)の収益を後悔するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 13.578723345690582
- License:
- Abstract: We consider an assortment selection and pricing problem in which a seller has $N$ different items available for sale. In each round, the seller observes a $d$-dimensional contextual preference information vector for the user, and offers to the user an assortment of $K$ items at prices chosen by the seller. The user selects at most one of the products from the offered assortment according to a multinomial logit choice model whose parameters are unknown. The seller observes which, if any, item is chosen at the end of each round, with the goal of maximizing cumulative revenue over a selling horizon of length $T$. For this problem, we propose an algorithm that learns from user feedback and achieves a revenue regret of order $\widetilde{O}(d \sqrt{K T} / L_0 )$ where $L_0$ is the minimum price sensitivity parameter. We also obtain a lower bound of order $\Omega(d \sqrt{T}/ L_0)$ for the regret achievable by any algorithm.
- Abstract(参考訳): 我々は、販売者が販売可能なさまざまなアイテムをN$で販売する、品揃え選択と価格設定の問題を考える。
各ラウンドにおいて、販売者は、ユーザに対して、$d$次元のコンテキスト優先情報ベクタを観察し、販売者が選択した価格で、ユーザに対して$K$アイテムを提供する。
利用者は、パラメータが不明な多項ロジット選択モデルに従って、提供された品目から少なくとも1つの商品を選択する。
売り手は、どのアイテムが各ラウンドの最後に選択されるかを観察し、累積収益をT$の売却地平線上で最大化することを目標としている。
本稿では,ユーザのフィードバックから学習し,$\widetilde{O}(d \sqrt{K T} / L_0 )$を最小価格感度パラメータとするアルゴリズムを提案する。
また、任意のアルゴリズムで達成可能な後悔に対して、下界の位数$\Omega(d \sqrt{T}/L_0)$を得る。
関連論文リスト
- A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - No-Regret Algorithms in non-Truthful Auctions with Budget and ROI Constraints [0.9694940903078658]
本稿では、ROIと予算制約の対象となる価値を最適化するために、オンラインオートバイディングアルゴリズムを設計する問題について検討する。
我々の主な結果は、最高のリプシッツ関数に関して、ほぼ最適の$tilde O(sqrt T)$の後悔を保証する完全な情報フィードバックを持つアルゴリズムである。
論文 参考訳(メタデータ) (2024-04-15T14:31:53Z) - Price DOES Matter! Modeling Price and Interest Preferences in
Session-based Recommendation [55.0391061198924]
セッションベースのレコメンデーションは、匿名ユーザが自分の短い行動シーケンスに基づいて購入したいアイテムを予測することを目的としている。
セッションベースのレコメンデーションの価格設定を組み込むのは簡単ではない。
セッションベースレコメンデーションのためのCoHHN(Co-guided Heterogeneous Hypergraph Network)を提案する。
論文 参考訳(メタデータ) (2022-05-09T10:47:15Z) - No-Regret Learning in Partially-Informed Auctions [85.67897346422122]
本研究では,一部の情報を用いたオークションの機械学習定式化について検討する。
各ラウンドでは、未知の分布から新しいアイテムが引き出され、プラットフォームは、そのアイテムに関する不完全な「偽」情報とともに価格を発行する。
アイテムの分布が買い手に知られ、マスクがSimHash関数のマッピングである場合、$mathbbRd$ to $0,1ell$、我々のアルゴリズムは、$tilde MathcalO((Tdell)frac12)$を後悔している。
論文 参考訳(メタデータ) (2022-02-22T01:15:51Z) - MNL-Bandit with Knapsacks: a near-optimal algorithm [2.3020018305241337]
我々は,販売者が定額でN$の代替品を在庫する動的アソシエーション選択問題を考える。
各期間において、売り手は顧客に提供すべき商品の品揃えを決定する必要がある。
MNLwK-UCB は,在庫規模がほぼ直線的に大きくなると,$tildeO(N + sqrtNT)$ regret bound が得られることを示す。
論文 参考訳(メタデータ) (2021-06-02T13:05:34Z) - Multinomial Logit Contextual Bandits: Provable Optimality and
Practicality [15.533842336139063]
パラメータが不明な多項式ロギット(MNL)選択モデルによってユーザ選択が与えられる順序選択選択問題を検討する。
本稿では,このMNLコンテクストバンディットに対する高信頼境界に基づくアルゴリズムを提案する。
本稿では,アルゴリズムの単純な変種が,幅広い重要なアプリケーションに対して最適な後悔を与えることを示す。
論文 参考訳(メタデータ) (2021-03-25T15:42:25Z) - Near-Optimal Regret Bounds for Contextual Combinatorial Semi-Bandits
with Linear Payoff Functions [53.77572276969548]
我々は、C$2$UCBアルゴリズムが分割マトロイド制約に対して最適な後悔結合$tildeO(dsqrtkT + dk)$を有することを示した。
一般的な制約に対して,C$2$UCBアルゴリズムで腕の報酬推定値を変更するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-20T04:29:18Z) - Fully Gap-Dependent Bounds for Multinomial Logit Bandit [5.132017939561661]
マルチノミアルロジット (MNL) バンディット問題について検討し、各ステップごとに、販売者は、N$アイテムのプールから最大でK$のサイズを提供する。
i) $widetildeO(sum_i = 1N Delta_i-2)$ time steps with high probability, (ii) $O(sum_i notin S* KDelta_i)というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-19T17:52:12Z) - Regret in Online Recommendation Systems [73.58127515175127]
本稿では,オンライン環境におけるレコメンデーションシステムの理論的分析について提案する。
各ラウンドにおいて、ユーザがランダムに$m$ユーザから選択され、レコメンデーションが要求される。決定者は、ユーザを観察し、$n$アイテムのカタログからアイテムを選択する。
推奨アルゴリズムのパフォーマンスは、これらの可能性を認識したOracleアルゴリズムを参照して、その後悔を通じて取得される。
論文 参考訳(メタデータ) (2020-10-23T12:48:35Z) - Learning to Rank under Multinomial Logit Choice [6.929312022493406]
コンテンツの最適順序付けを学ぶことは、ウェブサイト設計において重要な課題である。
本稿では,この問題に対する$Omega(sqrtJT)$lowbound,$tildeO(sqrtJT)$ upperbound on the regret of the UCBアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-07T16:15:12Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。