論文の概要: MNL-Bandits under Inventory and Limited Switches Constraints
- arxiv url: http://arxiv.org/abs/2204.10787v1
- Date: Fri, 22 Apr 2022 16:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 14:24:32.672927
- Title: MNL-Bandits under Inventory and Limited Switches Constraints
- Title(参考訳): インベントリおよびリミテッドスイッチによるMNLバンド
- Authors: Hongbin Zhang, Yu Yang, Feng Wu, Qixin Zhang
- Abstract要約: 我々は、データから顧客の選択を学習しながら、アソートを最適化する効率的な UCB ライクなアルゴリズムを開発した。
我々のアルゴリズムは、$O(Talpha)$スイッチが許される場合、サブ線形後悔境界$tildeOleft(T1-alpha/2right)$を達成できることを証明している。
- 参考スコア(独自算出の注目度): 38.960764902819434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing the assortment of products to display to customers is a key to
increasing revenue for both offline and online retailers. To trade-off between
exploring customers' preference and exploiting customers' choices learned from
data, in this paper, by adopting the Multi-Nomial Logit (MNL) choice model to
capture customers' choices over products, we study the problem of optimizing
assortments over a planning horizon $T$ for maximizing the profit of the
retailer. To make the problem setting more practical, we consider both the
inventory constraint and the limited switches constraint, where the retailer
cannot use up the resource inventory before time $T$ and is forbidden to switch
the assortment shown to customers too many times. Such a setting suits the case
when an online retailer wants to dynamically optimize the assortment selection
for a population of customers. We develop an efficient UCB-like algorithm to
optimize the assortments while learning customers' choices from data. We prove
that our algorithm can achieve a sub-linear regret bound
$\tilde{O}\left(T^{1-\alpha/2}\right)$ if $O(T^\alpha)$ switches are allowed.
%, and our regret bound is optimal with respect to $T$. Extensive numerical
experiments show that our algorithm outperforms baselines and the gap between
our algorithm's performance and the theoretical upper bound is small.
- Abstract(参考訳): 顧客への商品の表示を最適化することは、オフラインとオンラインの両方の小売業者の収益を増やす鍵となる。
本稿では、顧客好みの探索とデータから得られた顧客の選択の活用のトレードオフとして、MNL(Multi-Nomial Logit)選択モデルを採用して、商品に対する顧客の選択を捉え、小売業者の利益を最大化するために、計画的地平線上での品揃えを最適化する問題を考察する。
問題の設定をより現実的にするために、在庫制約と限定スイッチ制約の両方を検討し、小売業者はt$の時間前に資源在庫を使い果たすことが出来ず、顧客に示される分類を何度も切り替えることが禁じられている。
このような設定は、オンライン小売業者が顧客集団の仕分け選択を動的に最適化したい場合に当てはまる。
データから顧客の選択を学習しながら、分類を最適化する効率的なucbライクなアルゴリズムを開発した。
我々のアルゴリズムは,$O(T^\alpha)$スイッチが許される場合,$\tilde{O}\left(T^{1-\alpha/2}\right)$のサブ線形後悔を実現することができる。
%であり,後悔の限界は$t$に対して最適である。
大規模な数値実験により,アルゴリズムはベースラインよりも優れており,アルゴリズムの性能と理論上界とのギャップは小さいことがわかった。
関連論文リスト
- Online Joint Assortment-Inventory Optimization under MNL Choices [14.530542487845732]
本稿では,MNL(Multinomial Logit)選択モデルに従えば,各顧客の選択行動が従うと仮定する,オンラインジョイント・アソート・インベントリ最適化問題について考察する。
本稿では,オンラインの品揃えと在庫の意思決定における探索と搾取を効果的にバランスさせる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-04T09:25:34Z) - PASTA: Pessimistic Assortment Optimization [25.51792135903357]
オフラインデータ駆動環境でのアソシエーション最適化のクラスについて検討する。
本稿では,悲観主義の原理に基づくPASTA(Pessimistic Assortment opTimizAtion)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T01:11:51Z) - Playing hide and seek: tackling in-store picking operations while
improving customer experience [0.0]
動的店内ピッカー問題ルーティング(diPRP)と呼ばれる新しい問題を定式化する。
この関連する問題 — diPRP — では、ピッカーが顧客の遭遇を最小限に抑えながら、オンライン注文を選択しようとします。
私たちの研究は、オフラインの顧客体験を危険にさらすことなく、小売店がオンライン注文の店内購入を拡大できることを示唆している。
論文 参考訳(メタデータ) (2023-01-05T16:35:17Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Optimal Data Selection: An Online Distributed View [61.31708750038692]
この問題のオンライン版と分散版のアルゴリズムを開発する。
ランダム選択法は, ランダム選択法よりも5~20%高い性能を示した。
ImageNet と MNIST の学習タスクにおいて、我々の選択方法はランダム選択よりも5-20% 高い性能を示した。
論文 参考訳(メタデータ) (2022-01-25T18:56:16Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - A Tractable Online Learning Algorithm for the Multinomial Logit
Contextual Bandit [3.2771005331085687]
我々は、意思決定者が消費者に製品のサブセットを提供する動的集合最適化問題を考える。
MNL(Multinomial Logit)モデルを用いて消費者選択行動のモデル化を行う。
後悔は$O(sqrtdT + kappa)$で束縛され、既存のメソッドよりもパフォーマンスが大幅に向上していることを示す。
論文 参考訳(メタデータ) (2020-11-28T00:20:36Z) - Online Learning and Optimization for Revenue Management Problems with
Add-on Discounts [14.844382070740524]
我々は、この問題を最適化問題として定式化し、異なる商品の価格とアドオン割引商品の選択を決定する。
所望の精度にほぼ近い精度で問題を解くことができる効率的なFPTASアルゴリズムを提案する。
我々の学習アルゴリズムは、真の需要関数にアクセスできる最適なアルゴリズムに収束できることを示す。
論文 参考訳(メタデータ) (2020-05-02T23:54:17Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。