論文の概要: Dynamic Assortment Selection and Pricing with Censored Preference Feedback
- arxiv url: http://arxiv.org/abs/2504.02324v1
- Date: Thu, 03 Apr 2025 06:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:10.323582
- Title: Dynamic Assortment Selection and Pricing with Censored Preference Feedback
- Title(参考訳): 補償された選好フィードバックを用いた動的選好選択と価格設定
- Authors: Jung-hun Kim, Min-hwan Oh,
- Abstract要約: 本稿では,テキストセンタ型マルチノミアルロジット(C-MNL)選択モデルに基づく新しいフレームワークを提案する。
売り手は価格で一連の商品を提示し、買い手は価格より高い価格で商品をフィルタリングし、残りの選択肢から少なくとも1つの商品を購入する。
我々のアルゴリズムは $tildeO(dfrac32sqrtT/kappa)$ と $tildeO(d2sqrtT/kappa) の残差を実現する。
- 参考スコア(独自算出の注目度): 10.988222071035198
- License:
- Abstract: In this study, we investigate the problem of dynamic multi-product selection and pricing by introducing a novel framework based on a \textit{censored multinomial logit} (C-MNL) choice model. In this model, sellers present a set of products with prices, and buyers filter out products priced above their valuation, purchasing at most one product from the remaining options based on their preferences. The goal is to maximize seller revenue by dynamically adjusting product offerings and prices, while learning both product valuations and buyer preferences through purchase feedback. To achieve this, we propose a Lower Confidence Bound (LCB) pricing strategy. By combining this pricing strategy with either an Upper Confidence Bound (UCB) or Thompson Sampling (TS) product selection approach, our algorithms achieve regret bounds of $\tilde{O}(d^{\frac{3}{2}}\sqrt{T/\kappa})$ and $\tilde{O}(d^{2}\sqrt{T/\kappa})$, respectively. Finally, we validate the performance of our methods through simulations, demonstrating their effectiveness.
- Abstract(参考訳): 本研究では,C-MNL選択モデルに基づく新しいフレームワークを導入することにより,動的多産物選択と価格設定の問題を検討する。
このモデルでは、売り手は価格で一連の商品を提示し、買い手は価格より高い価格で商品をフィルタリングし、残りの選択肢から購入する。
目標は、商品の価格と価格を動的に調整し、購入フィードバックを通じて商品のバリュエーションと購入者の好みを学習することで、販売者収益を最大化することである。
そこで本研究では,LCB(Low Confidence Bound)の価格戦略を提案する。
この価格戦略をアッパー信頼境界 (UCB) またはトンプソンサンプリング (TS) の製品選択アプローチと組み合わせることで、我々のアルゴリズムは、それぞれ$\tilde{O}(d^{\frac{3}{2}}\sqrt{T/\kappa})$と$\tilde{O}(d^{2}\sqrt{T/\kappa})$の後悔境界を達成する。
最後に,本手法の有効性をシミュレーションにより検証し,その有効性を実証する。
関連論文リスト
- Improved Algorithms for Contextual Dynamic Pricing [24.530341596901476]
コンテキスト動的価格設定では、売り手はコンテキスト情報に基づいて商品を順次価格設定する。
提案アルゴリズムは,$tildemathcalO(T2/3)$の最適再帰限界を達成し,既存の結果を改善する。
このモデルに対して,我々のアルゴリズムは,文脈空間の次元を$d$とする,後悔の$tildemathcalO(Td+2beta/d+3beta)$を得る。
論文 参考訳(メタデータ) (2024-06-17T08:26:51Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Dynamic Pricing and Learning with Long-term Reference Effects [16.07344044662994]
本研究では,販売者が提示した過去の価格の基準価格が平均値となる,シンプルで斬新な参照価格メカニズムについて検討する。
このメカニズムの下では,モデルパラメータに関係なく,マークダウンポリシがほぼ最適であることを示す。
次に、需要モデルパラメータが不明な、より困難な動的価格と学習の問題について検討する。
論文 参考訳(メタデータ) (2024-02-19T21:36:54Z) - Pricing with Contextual Elasticity and Heteroscedastic Valuation [23.96777734246062]
我々は、顧客がその特徴と価格に基づいて商品を購入するかどうかを決めるオンラインコンテキスト動的価格問題について検討する。
本稿では,機能に基づく価格弾力性の導入により,顧客の期待する需要をモデル化する新たなアプローチを提案する。
我々の結果は、文脈的弾力性とヘテロセダスティックな評価の関係に光を当て、効果的で実用的な価格戦略の洞察を与えました。
論文 参考訳(メタデータ) (2023-12-26T11:07:37Z) - Contextual Dynamic Pricing with Strategic Buyers [93.97401997137564]
戦略的買い手によるコンテキスト動的価格問題について検討する。
売り手は買い手の真の特徴を観察せず、買い手の戦略行動に応じて操作された特徴を観察する。
本稿では,販売者の累積収益を最大化するために,購入者の戦略的行動をオンライン学習に取り入れた戦略的動的価格政策を提案する。
論文 参考訳(メタデータ) (2023-07-08T23:06:42Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Phase Transitions in Learning and Earning under Price Protection
Guarantee [4.683806391173103]
データ駆動型動的価格設定のためのオンライン学習アルゴリズムの設計にこのようなポリシーが与える影響について検討する。
最適な後悔は、まず基本的な不可能な体制を確立することで$tildeTheta(sqrtT+minM,,T2/3)$であることを示す。
我々は,下線プライス保護下でのアンダーライン学習とアンダーライン学習のための位相探索型アルゴリズムLEAPを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:36:00Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - Price DOES Matter! Modeling Price and Interest Preferences in
Session-based Recommendation [55.0391061198924]
セッションベースのレコメンデーションは、匿名ユーザが自分の短い行動シーケンスに基づいて購入したいアイテムを予測することを目的としている。
セッションベースのレコメンデーションの価格設定を組み込むのは簡単ではない。
セッションベースレコメンデーションのためのCoHHN(Co-guided Heterogeneous Hypergraph Network)を提案する。
論文 参考訳(メタデータ) (2022-05-09T10:47:15Z) - Dynamic pricing and assortment under a contextual MNL demand [2.1320960069210475]
我々は、T期間における未知の需要の下で、動的多製品価格とアソシエーション問題を考察する。
オンラインニュートンステップアルゴリズム(ONS)の変種に基づくランダム化動的価格ポリシーを提案する。
また,MNLの文脈帯域幅問題に対する新しい楽観的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:37:10Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。