論文の概要: Doubly High-Dimensional Contextual Bandits: An Interpretable Model for
Joint Assortment-Pricing
- arxiv url: http://arxiv.org/abs/2309.08634v1
- Date: Thu, 14 Sep 2023 00:45:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 21:58:02.795359
- Title: Doubly High-Dimensional Contextual Bandits: An Interpretable Model for
Joint Assortment-Pricing
- Title(参考訳): 二重高次元コンテキスト帯域:関節補間加工の解釈可能なモデル
- Authors: Junhui Cai, Ran Chen, Martin J. Wainwright, Linda Zhao
- Abstract要約: 小売業を営む上での課題は、消費者に提示する商品の選択方法や、収益や利益を最大化する商品の価格設定方法だ。
コンテクスト的帯域幅に基づくアソシエーションプライシングへの共同アプローチを提案する。
我々は、バンディット方式による収益や利益の少なくとも3倍の増加と、学習された潜在因子モデルの解釈可能性を示す。
- 参考スコア(独自算出の注目度): 24.80305303473745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key challenges in running a retail business include how to select products to
present to consumers (the assortment problem), and how to price products (the
pricing problem) to maximize revenue or profit. Instead of considering these
problems in isolation, we propose a joint approach to assortment-pricing based
on contextual bandits. Our model is doubly high-dimensional, in that both
context vectors and actions are allowed to take values in high-dimensional
spaces. In order to circumvent the curse of dimensionality, we propose a simple
yet flexible model that captures the interactions between covariates and
actions via a (near) low-rank representation matrix. The resulting class of
models is reasonably expressive while remaining interpretable through latent
factors, and includes various structured linear bandit and pricing models as
particular cases. We propose a computationally tractable procedure that
combines an exploration/exploitation protocol with an efficient low-rank matrix
estimator, and we prove bounds on its regret. Simulation results show that this
method has lower regret than state-of-the-art methods applied to various
standard bandit and pricing models. Real-world case studies on the
assortment-pricing problem, from an industry-leading instant noodles company to
an emerging beauty start-up, underscore the gains achievable using our method.
In each case, we show at least three-fold gains in revenue or profit by our
bandit method, as well as the interpretability of the latent factor models that
are learned.
- Abstract(参考訳): 小売業を営む際の主な課題は、消費者に提示する商品(品揃え問題)の選択方法、収益や利益を最大化するために製品(価格問題)の価格設定方法である。
これらの問題を個別に考える代わりに、文脈的包帯に基づく価格設定への共同アプローチを提案する。
我々のモデルは2次元の高次元であり、文脈ベクトルと行動の両方が高次元空間で値を取ることができる。
次元の呪いを回避するために,共変量と作用の相互作用を(近傍の)低ランク表現行列を介して捉える,単純かつ柔軟なモデルを提案する。
結果として得られるモデルのクラスは、潜在因子を解釈しながら合理的に表現され、特定のケースとして様々な構造化線形バンドと価格モデルを含む。
本稿では,探索・探索プロトコルと効率的な低ランク行列推定器を組み合わせた計算処理手法を提案する。
シミュレーションの結果, この手法は, 各種標準バンディットおよび価格モデルに適用した最先端手法よりも, 後悔度が低いことがわかった。
業界主導のインスタント麺会社から新興の美容スタートアップまで, 価格問題の実情を事例として, 本手法で実現可能な利益を実証した。
いずれの場合も,学習した潜在要因モデルの解釈可能性に加えて,バンディット法による収益あるいは利益の少なくとも3倍の利益を示す。
関連論文リスト
- Batch Ensemble for Variance Dependent Regret in Stochastic Bandits [41.95653110232677]
オンライン強化学習(RL:Reinforcement Learning)において、探索と搾取を効果的に行うことが重要な課題の1つだ。
実践的なアンサンブル法に着想を得た本研究では,マルチアーマッド・バンディット(MAB)のほぼ最適後悔を実現する,単純かつ新しいバッチアンサンブル方式を提案する。
提案アルゴリズムは, バッチ数という1つのパラメータしか持たず, 損失のスケールや分散といった分布特性に依存しない。
論文 参考訳(メタデータ) (2024-09-13T06:40:56Z) - Contextual Dynamic Pricing: Algorithms, Optimality, and Local Differential Privacy Constraints [10.057344315478709]
企業が商品をT$で販売する状況的動的価格問題について検討する。
まず、最適後悔上限は、対数係数まで、次数$sqrtdT$であることを示す。
理論的結果の重要な洞察は、動的価格と文脈的マルチアームバンディット問題との本質的な関係である。
論文 参考訳(メタデータ) (2024-06-04T15:44:10Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - UniMatch: A Unified User-Item Matching Framework for the Multi-purpose
Merchant Marketing [27.459774494479227]
1つのモデルでアイテムレコメンデーションとユーザターゲティングを同時に行うために,統合されたユーザイテムマッチングフレームワークを提案する。
我々のフレームワークは、最先端の手法と比較して大幅に性能が向上し、計算資源や日々のメンテナンスにかかるコストが大幅に削減された。
論文 参考訳(メタデータ) (2023-07-19T13:49:35Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - A Twin Neural Model for Uplift [59.38563723706796]
Upliftは条件付き治療効果モデリングの特定のケースです。
相対リスクのベイズ解釈との関連性を利用して定義した新たな損失関数を提案する。
本提案手法は,シミュレーション設定の最先端と大規模ランダム化実験による実データとの競合性を示す。
論文 参考訳(メタデータ) (2021-05-11T16:02:39Z) - Deep Hedging: Learning Risk-Neutral Implied Volatility Dynamics [0.0]
シミュレーションスポットとオプション価格の経路に対するリスクニュートラル測度学習のための数値的効率的アプローチ
市場ダイナミクスは、リスク中立的措置に従う場合に限り、取引コストがなければ「統計的な仲裁」ができないことを示している。
論文 参考訳(メタデータ) (2021-03-22T15:38:25Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Categorized Bandits [17.865068872754293]
我々は、注文されたカテゴリーの中で腕をグループ化する、新しいマルチアーム・バンディット・セッティングを導入する。
モチベーションの例はeコマースから来ており、顧客は通常、特定の明確に識別されているが未知のカテゴリーの商品に対して、他のどの商品よりも高い欲求を持っている。
論文 参考訳(メタデータ) (2020-05-04T17:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。