論文の概要: Speed Up the Cold-Start Learning in Two-Sided Bandits with Many Arms
- arxiv url: http://arxiv.org/abs/2210.00340v3
- Date: Wed, 18 Dec 2024 06:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:03.075169
- Title: Speed Up the Cold-Start Learning in Two-Sided Bandits with Many Arms
- Title(参考訳): 多くの腕を持つ二面バンドにおけるコールドスタート学習の高速化
- Authors: Mohsen Bayati, Junyu Cao, Wanning Chen,
- Abstract要約: マルチアームバンディット(MAB)アルゴリズムは、オンライン実験の機会コストを削減するための効率的なアプローチである。
これらのアルゴリズムは、新製品に対する顧客の好みに関する知識が不足しているため、実験の開始時にいわゆるコールドスタートに直面します。
サブサンプリングと低ランク行列推定を最初に用いた二相バンディットアルゴリズムを設計し,ターゲットとする製品群をかなり小さくする。
- 参考スコア(独自算出の注目度): 6.8205957480109705
- License:
- Abstract: Multi-armed bandit (MAB) algorithms are efficient approaches to reduce the opportunity cost of online experimentation and are used by companies to find the best product from periodically refreshed product catalogs. However, these algorithms face the so-called cold-start at the onset of the experiment due to a lack of knowledge of customer preferences for new products, requiring an initial data collection phase known as the burn-in period. During this period, standard MAB algorithms operate like randomized experiments, incurring large burn-in costs which scale with the large number of products. We attempt to reduce the burn-in by identifying that many products can be cast into two-sided products, and then naturally model the rewards of the products with a matrix, whose rows and columns represent the two sides respectively. Next, we design two-phase bandit algorithms that first use subsampling and low-rank matrix estimation to obtain a substantially smaller targeted set of products and then apply a UCB procedure on the target products to find the best one. We theoretically show that the proposed algorithms lower costs and expedite the experiment in cases when there is limited experimentation time along with a large product set. Our analysis also reveals three regimes of long, short, and ultra-short horizon experiments, depending on dimensions of the matrix. Empirical evidence from both synthetic data and a real-world dataset on music streaming services validates this superior performance.
- Abstract(参考訳): マルチアームバンディット(MAB)アルゴリズムは、オンライン実験の機会コストを削減するための効率的なアプローチであり、定期的に更新された製品カタログから最高の製品を見つけるために企業が使用する。
しかし、これらのアルゴリズムは、新しい製品に対する顧客の好みに関する知識が不足しているため、実験開始時にいわゆるコールドスタートに直面し、バーンイン期間と呼ばれる初期データ収集フェーズを必要とする。
この期間、標準的なMABアルゴリズムはランダム化実験のように動作し、多数の製品でスケールする大量のバーンインコストを発生させる。
両面積に多くの製品を投入できることを特定してバーンインを低減し、その後、列と列がそれぞれ両側を表す行列で商品の報酬を自然にモデル化する。
次に,まずサブサンプリングと低ランク行列推定を併用した二相帯域幅アルゴリズムを設計し,ターゲットとする製品群をかなり小さくし,対象製品にUTB手順を適用して最適なものを求める。
理論的には,提案アルゴリズムはコストを低減し,大規模な製品セットとともに実験時間に制限がある場合に実験を高速化する。
我々の分析では、行列の次元によって、長方、短方、そして超短距離の地平線実験の3つの条件も明らかにしている。
合成データと音楽ストリーミングサービス上の実世界のデータセットの両方による実証的な証拠は、この優れたパフォーマンスを実証する。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - RecFlow: An Industrial Full Flow Recommendation Dataset [66.06445386541122]
産業レコメンデーションシステムは、商品をユーザに届ける際の効率性と効率のバランスをとるために、多段階パイプラインに依存している。
オフラインRSベンチマークと実際のオンライン環境とのギャップを埋めるために設計された産業用フルフローレコメンデーションデータセットであるRecFlowを紹介します。
我々のデータセットは、約9万項目にわたる42Kユーザからの38万のインタラクションで構成され、37日間にわたる9.3Mオンラインリクエストから収集された1.9Bステージサンプルと6ステージにまたがる。
論文 参考訳(メタデータ) (2024-10-28T09:36:03Z) - A Data Driven Sequential Learning Framework to Accelerate and Optimize
Multi-Objective Manufacturing Decisions [1.5771347525430772]
本稿では、逐次学習を利用して複雑なシステムを効率的に最適化する新しいデータ駆動型ベイズ最適化フレームワークを提案する。
提案フレームワークは,データ取得が高価で資源集約的な実用アプリケーションにおいて特に有用である。
提案されたデータ駆動フレームワークは、コストと時間を削減して、同様の製造上の決定を下す可能性がある。
論文 参考訳(メタデータ) (2023-04-18T20:33:08Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Efficient and Accurate Top-$K$ Recovery from Choice Data [1.14219428942199]
レコメンデーションシステムのようないくつかのアプリケーションでは、統計学者は主に大量のアイテムから上位のアイテムの集合を回収することに興味がある。
そこで本稿では,K$-recoveryの高速かつ高精度なランキングアルゴリズムとして,選択に基づくボルダカウントアルゴリズムを提案する。
選択に基づくボルダカウントアルゴリズムは,多種多様なランダム効用モデルの下で,上位$Kの回収に最適なサンプル複雑性を有することを示す。
論文 参考訳(メタデータ) (2022-06-23T22:05:08Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Efficient Calibration of Multi-Agent Market Simulators from Time Series
with Bayesian Optimization [2.6749843984691672]
マルチエージェント市場シミュレーションは、下流の機械学習や強化学習タスクのための環境を作成するために一般的に使用される。
本稿では,過去の時系列観測からマルチエージェント市場シミュレータパラメータを校正するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-03T22:57:46Z) - Learning to Recommend Using Non-Uniform Data [7.005458308454873]
過去の購入やレビューに基づく製品のユーザの好みを学習することは、現代のレコメンデーションエンジンの基礎にある。
一部のユーザーは商品を購入したりレビューしたりする傾向があり、一部の製品はユーザーによって購入またはレビューされる傾向にある。
この一様でないパターンは多くの既存のレコメンデーションアルゴリズムのパワーを低下させる。
論文 参考訳(メタデータ) (2021-10-21T16:17:40Z) - Knowledge transfer across cell lines using Hybrid Gaussian Process
models with entity embedding vectors [62.997667081978825]
生物化学的プロセスを開発するために、多数の実験が実施されている。
既に開発されたプロセスのデータを利用して、新しいプロセスの予測を行い、必要な実験の数を大幅に削減できるだろうか。
論文 参考訳(メタデータ) (2020-11-27T17:38:15Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - Learning to Rank in the Position Based Model with Bandit Feedback [3.9121134770873742]
本稿では,LinUCB と Linear Thompson Sampling の2つのよく知られたアルゴリズムの拡張を提案する。
生産環境におけるバイアスを考慮し,位置ベースクリックモデルを用いる。
論文 参考訳(メタデータ) (2020-04-27T19:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。