論文の概要: MNL-Bandits under Inventory and Limited Switches Constraints
- arxiv url: http://arxiv.org/abs/2204.10787v1
- Date: Fri, 22 Apr 2022 16:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 14:24:32.672927
- Title: MNL-Bandits under Inventory and Limited Switches Constraints
- Title(参考訳): インベントリおよびリミテッドスイッチによるMNLバンド
- Authors: Hongbin Zhang, Yu Yang, Feng Wu, Qixin Zhang
- Abstract要約: 我々は、データから顧客の選択を学習しながら、アソートを最適化する効率的な UCB ライクなアルゴリズムを開発した。
我々のアルゴリズムは、$O(Talpha)$スイッチが許される場合、サブ線形後悔境界$tildeOleft(T1-alpha/2right)$を達成できることを証明している。
- 参考スコア(独自算出の注目度): 38.960764902819434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing the assortment of products to display to customers is a key to
increasing revenue for both offline and online retailers. To trade-off between
exploring customers' preference and exploiting customers' choices learned from
data, in this paper, by adopting the Multi-Nomial Logit (MNL) choice model to
capture customers' choices over products, we study the problem of optimizing
assortments over a planning horizon $T$ for maximizing the profit of the
retailer. To make the problem setting more practical, we consider both the
inventory constraint and the limited switches constraint, where the retailer
cannot use up the resource inventory before time $T$ and is forbidden to switch
the assortment shown to customers too many times. Such a setting suits the case
when an online retailer wants to dynamically optimize the assortment selection
for a population of customers. We develop an efficient UCB-like algorithm to
optimize the assortments while learning customers' choices from data. We prove
that our algorithm can achieve a sub-linear regret bound
$\tilde{O}\left(T^{1-\alpha/2}\right)$ if $O(T^\alpha)$ switches are allowed.
%, and our regret bound is optimal with respect to $T$. Extensive numerical
experiments show that our algorithm outperforms baselines and the gap between
our algorithm's performance and the theoretical upper bound is small.
- Abstract(参考訳): 顧客への商品の表示を最適化することは、オフラインとオンラインの両方の小売業者の収益を増やす鍵となる。
本稿では、顧客好みの探索とデータから得られた顧客の選択の活用のトレードオフとして、MNL(Multi-Nomial Logit)選択モデルを採用して、商品に対する顧客の選択を捉え、小売業者の利益を最大化するために、計画的地平線上での品揃えを最適化する問題を考察する。
問題の設定をより現実的にするために、在庫制約と限定スイッチ制約の両方を検討し、小売業者はt$の時間前に資源在庫を使い果たすことが出来ず、顧客に示される分類を何度も切り替えることが禁じられている。
このような設定は、オンライン小売業者が顧客集団の仕分け選択を動的に最適化したい場合に当てはまる。
データから顧客の選択を学習しながら、分類を最適化する効率的なucbライクなアルゴリズムを開発した。
我々のアルゴリズムは,$O(T^\alpha)$スイッチが許される場合,$\tilde{O}\left(T^{1-\alpha/2}\right)$のサブ線形後悔を実現することができる。
%であり,後悔の限界は$t$に対して最適である。
大規模な数値実験により,アルゴリズムはベースラインよりも優れており,アルゴリズムの性能と理論上界とのギャップは小さいことがわかった。
関連論文リスト
- Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。
我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文 参考訳(メタデータ) (2024-11-20T18:06:55Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Training Greedy Policy for Proposal Batch Selection in Expensive Multi-Objective Combinatorial Optimization [52.80408805368928]
本稿では,バッチ取得のための新しいグリーディ型サブセット選択アルゴリズムを提案する。
赤蛍光タンパク質に関する実験により,提案手法は1.69倍少ないクエリでベースライン性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-06-21T05:57:08Z) - Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - Emulating Full Client Participation: A Long-Term Client Selection Strategy for Federated Learning [48.94952630292219]
本稿では,クライアントの完全参加によって達成されるパフォーマンスをエミュレートする新しいクライアント選択戦略を提案する。
1ラウンドで、クライアントサブセットとフルクライアントセット間の勾配空間推定誤差を最小化し、クライアントを選択する。
複数ラウンド選択において、類似したデータ分布を持つクライアントが選択される頻度に類似することを保証する、新しい個性制約を導入する。
論文 参考訳(メタデータ) (2024-05-22T12:27:24Z) - Online Joint Assortment-Inventory Optimization under MNL Choices [11.669431684184534]
本稿では,MNL(Multinomial Logit)選択モデルに従えば,各顧客の選択行動が従うと仮定する,オンラインジョイント・アソート・インベントリ最適化問題について考察する。
本稿では,オンラインでの品揃えと在庫のオンライン意思決定において,探索と利用を効果的にバランスさせる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-04T09:25:34Z) - PASTA: Pessimistic Assortment Optimization [25.51792135903357]
オフラインデータ駆動環境でのアソシエーション最適化のクラスについて検討する。
本稿では,悲観主義の原理に基づくPASTA(Pessimistic Assortment opTimizAtion)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T01:11:51Z) - Playing hide and seek: tackling in-store picking operations while
improving customer experience [0.0]
動的店内ピッカー問題ルーティング(diPRP)と呼ばれる新しい問題を定式化する。
この関連する問題 — diPRP — では、ピッカーが顧客の遭遇を最小限に抑えながら、オンライン注文を選択しようとします。
私たちの研究は、オフラインの顧客体験を危険にさらすことなく、小売店がオンライン注文の店内購入を拡大できることを示唆している。
論文 参考訳(メタデータ) (2023-01-05T16:35:17Z) - A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit [2.9998316151418107]
我々は、意思決定者が消費者に製品のサブセットを提供する動的集合最適化問題を考える。
MNL(Multinomial Logit)モデルを用いて消費者選択行動のモデル化を行う。
後悔は$O(sqrtdT + kappa)$で束縛され、既存のメソッドよりもパフォーマンスが大幅に向上していることを示す。
論文 参考訳(メタデータ) (2020-11-28T00:20:36Z) - Online Learning and Optimization for Revenue Management Problems with
Add-on Discounts [14.844382070740524]
我々は、この問題を最適化問題として定式化し、異なる商品の価格とアドオン割引商品の選択を決定する。
所望の精度にほぼ近い精度で問題を解くことができる効率的なFPTASアルゴリズムを提案する。
我々の学習アルゴリズムは、真の需要関数にアクセスできる最適なアルゴリズムに収束できることを示す。
論文 参考訳(メタデータ) (2020-05-02T23:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。