論文の概要: Speed Up the Cold-Start Learning in Two-Sided Bandits with Many Arms
- arxiv url: http://arxiv.org/abs/2210.00340v1
- Date: Sat, 1 Oct 2022 18:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:56:12.367604
- Title: Speed Up the Cold-Start Learning in Two-Sided Bandits with Many Arms
- Title(参考訳): 腕の多い2面バンディットにおけるコールドスタート学習の高速化
- Authors: Mohsen Bayati, Junyu Cao, Wanning Chen
- Abstract要約: マルチアームバンディット(MAB)アルゴリズムは、オンライン実験の機会コストを削減するための効率的なアプローチである。
これらのアルゴリズムは、新製品に対する顧客の好みに関する知識が不足しているため、実験の開始時にいわゆるコールドスタートに直面します。
提案アルゴリズムは,大規模な製品セットとともに実験時間に制限がある場合に,コストを低減し,実験を迅速化することを示す。
- 参考スコア(独自算出の注目度): 9.088303226909279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-armed bandit (MAB) algorithms are efficient approaches to reduce the
opportunity cost of online experimentation and are used by companies to find
the best product from periodically refreshed product catalogs. However, these
algorithms face the so-called cold-start at the onset of the experiment due to
a lack of knowledge of customer preferences for new products, requiring an
initial data collection phase known as the burning period. During this period,
MAB algorithms operate like randomized experiments, incurring large burning
costs which scale with the large number of products. We attempt to reduce the
burning by identifying that many products can be cast into two-sided products,
and then naturally model the rewards of the products with a matrix, whose rows
and columns represent the two sides respectively. Next, we design two-phase
bandit algorithms that first use subsampling and low-rank matrix estimation to
obtain a substantially smaller targeted set of products and then apply a UCB
procedure on the target products to find the best one. We theoretically show
that the proposed algorithms lower costs and expedite the experiment in cases
when there is limited experimentation time along with a large product set. Our
analysis also reveals three regimes of long, short, and ultra-short horizon
experiments, depending on dimensions of the matrix. Empirical evidence from
both synthetic data and a real-world dataset on music streaming services
validates this superior performance.
- Abstract(参考訳): mab(multi-armed bandit)アルゴリズムは、オンライン実験の機会コストを削減するための効率的なアプローチであり、定期的に更新された製品カタログから最高の製品を見つけるために企業が利用する。
しかし、これらのアルゴリズムは、新製品に対する顧客の好みに関する知識が不足しているため、実験開始時にいわゆるコールドスタートに直面し、燃え尽きる期間として知られる初期データ収集フェーズが必要となる。
この期間、MABアルゴリズムはランダム化実験のように動作し、多数の製品でスケールする大規模な燃焼コストを発生させる。
焼成量を減らすために, 多数の製品が2面製品に鋳造可能であること, そして, 列と列がそれぞれ2面を表わす行列を用いて, 生成物の報酬を自然にモデル化することを試みた。
次に,まずサブサンプリングと低ランク行列推定を併用した2相帯域幅アルゴリズムを設計し,ターゲットとする製品群をかなり小さくし,対象製品にUTB手順を適用して最適なものを求める。
提案アルゴリズムは,大規模な製品セットとともに実験時間に制限がある場合,コストを低減し,実験を高速化する。
また, 長大, 短大, 超短大地平線実験の3つの系を, 行列の次元に依存して明らかにした。
合成データと音楽ストリーミングサービス上の実世界のデータセットの両方による実証的な証拠は、この優れたパフォーマンスを実証する。
関連論文リスト
- Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - A Data Driven Sequential Learning Framework to Accelerate and Optimize
Multi-Objective Manufacturing Decisions [1.5771347525430772]
本稿では、逐次学習を利用して複雑なシステムを効率的に最適化する新しいデータ駆動型ベイズ最適化フレームワークを提案する。
提案フレームワークは,データ取得が高価で資源集約的な実用アプリケーションにおいて特に有用である。
提案されたデータ駆動フレームワークは、コストと時間を削減して、同様の製造上の決定を下す可能性がある。
論文 参考訳(メタデータ) (2023-04-18T20:33:08Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Efficient and Accurate Top-$K$ Recovery from Choice Data [1.14219428942199]
レコメンデーションシステムのようないくつかのアプリケーションでは、統計学者は主に大量のアイテムから上位のアイテムの集合を回収することに興味がある。
そこで本稿では,K$-recoveryの高速かつ高精度なランキングアルゴリズムとして,選択に基づくボルダカウントアルゴリズムを提案する。
選択に基づくボルダカウントアルゴリズムは,多種多様なランダム効用モデルの下で,上位$Kの回収に最適なサンプル複雑性を有することを示す。
論文 参考訳(メタデータ) (2022-06-23T22:05:08Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Efficient Calibration of Multi-Agent Market Simulators from Time Series
with Bayesian Optimization [2.6749843984691672]
マルチエージェント市場シミュレーションは、下流の機械学習や強化学習タスクのための環境を作成するために一般的に使用される。
本稿では,過去の時系列観測からマルチエージェント市場シミュレータパラメータを校正するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-03T22:57:46Z) - Learning to Recommend Using Non-Uniform Data [7.005458308454873]
過去の購入やレビューに基づく製品のユーザの好みを学習することは、現代のレコメンデーションエンジンの基礎にある。
一部のユーザーは商品を購入したりレビューしたりする傾向があり、一部の製品はユーザーによって購入またはレビューされる傾向にある。
この一様でないパターンは多くの既存のレコメンデーションアルゴリズムのパワーを低下させる。
論文 参考訳(メタデータ) (2021-10-21T16:17:40Z) - Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative
Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。
内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。
FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2021-09-13T08:31:59Z) - Knowledge transfer across cell lines using Hybrid Gaussian Process
models with entity embedding vectors [62.997667081978825]
生物化学的プロセスを開発するために、多数の実験が実施されている。
既に開発されたプロセスのデータを利用して、新しいプロセスの予測を行い、必要な実験の数を大幅に削減できるだろうか。
論文 参考訳(メタデータ) (2020-11-27T17:38:15Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - Learning to Rank in the Position Based Model with Bandit Feedback [3.9121134770873742]
本稿では,LinUCB と Linear Thompson Sampling の2つのよく知られたアルゴリズムの拡張を提案する。
生産環境におけるバイアスを考慮し,位置ベースクリックモデルを用いる。
論文 参考訳(メタデータ) (2020-04-27T19:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。