Fugu-MT 論文翻訳(概要): Speed Up the Cold-Start Learning in Two-Sided Bandits with Many Arms

論文の概要: Speed Up the Cold-Start Learning in Two-Sided Bandits with Many Arms

arxiv url: http://arxiv.org/abs/2210.00340v1
Date: Sat, 1 Oct 2022 18:39:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 13:56:12.367604
Title: Speed Up the Cold-Start Learning in Two-Sided Bandits with Many Arms
Title（参考訳）: 腕の多い2面バンディットにおけるコールドスタート学習の高速化
Authors: Mohsen Bayati, Junyu Cao, Wanning Chen
Abstract要約: マルチアームバンディット(MAB)アルゴリズムは、オンライン実験の機会コストを削減するための効率的なアプローチである。これらのアルゴリズムは、新製品に対する顧客の好みに関する知識が不足しているため、実験の開始時にいわゆるコールドスタートに直面します。提案アルゴリズムは,大規模な製品セットとともに実験時間に制限がある場合に,コストを低減し,実験を迅速化することを示す。
参考スコア（独自算出の注目度）: 9.088303226909279
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-armed bandit (MAB) algorithms are efficient approaches to reduce the opportunity cost of online experimentation and are used by companies to find the best product from periodically refreshed product catalogs. However, these algorithms face the so-called cold-start at the onset of the experiment due to a lack of knowledge of customer preferences for new products, requiring an initial data collection phase known as the burning period. During this period, MAB algorithms operate like randomized experiments, incurring large burning costs which scale with the large number of products. We attempt to reduce the burning by identifying that many products can be cast into two-sided products, and then naturally model the rewards of the products with a matrix, whose rows and columns represent the two sides respectively. Next, we design two-phase bandit algorithms that first use subsampling and low-rank matrix estimation to obtain a substantially smaller targeted set of products and then apply a UCB procedure on the target products to find the best one. We theoretically show that the proposed algorithms lower costs and expedite the experiment in cases when there is limited experimentation time along with a large product set. Our analysis also reveals three regimes of long, short, and ultra-short horizon experiments, depending on dimensions of the matrix. Empirical evidence from both synthetic data and a real-world dataset on music streaming services validates this superior performance.
Abstract（参考訳）: mab(multi-armed bandit)アルゴリズムは、オンライン実験の機会コストを削減するための効率的なアプローチであり、定期的に更新された製品カタログから最高の製品を見つけるために企業が利用する。しかし、これらのアルゴリズムは、新製品に対する顧客の好みに関する知識が不足しているため、実験開始時にいわゆるコールドスタートに直面し、燃え尽きる期間として知られる初期データ収集フェーズが必要となる。この期間、MABアルゴリズムはランダム化実験のように動作し、多数の製品でスケールする大規模な燃焼コストを発生させる。焼成量を減らすために, 多数の製品が2面製品に鋳造可能であること, そして, 列と列がそれぞれ2面を表わす行列を用いて, 生成物の報酬を自然にモデル化することを試みた。次に,まずサブサンプリングと低ランク行列推定を併用した2相帯域幅アルゴリズムを設計し,ターゲットとする製品群をかなり小さくし,対象製品にUTB手順を適用して最適なものを求める。提案アルゴリズムは,大規模な製品セットとともに実験時間に制限がある場合,コストを低減し,実験を高速化する。また, 長大, 短大, 超短大地平線実験の3つの系を, 行列の次元に依存して明らかにした。合成データと音楽ストリーミングサービス上の実世界のデータセットの両方による実証的な証拠は、この優れたパフォーマンスを実証する。

関連論文リスト

NEAR$^2$: A Nested Embedding Approach to Efficient Product Retrieval and Ranking [14.008264174074487]
NEAR$2$と呼ばれる製品検索とランキングに対するNested Embedding Approachを提案する。提案手法は,既存のモデルと比較して,より小さな埋め込み次元よりも優れた性能を実現する。
論文参考訳（メタデータ） (2025-06-24T16:02:02Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
RecFlow: An Industrial Full Flow Recommendation Dataset [66.06445386541122]
産業レコメンデーションシステムは、商品をユーザに届ける際の効率性と効率のバランスをとるために、多段階パイプラインに依存している。オフラインRSベンチマークと実際のオンライン環境とのギャップを埋めるために設計された産業用フルフローレコメンデーションデータセットであるRecFlowを紹介します。我々のデータセットは、約9万項目にわたる42Kユーザからの38万のインタラクションで構成され、37日間にわたる9.3Mオンラインリクエストから収集された1.9Bステージサンプルと6ステージにまたがる。
論文参考訳（メタデータ） (2024-10-28T09:36:03Z)
Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文参考訳（メタデータ） (2024-06-15T20:54:48Z)
A Data Driven Sequential Learning Framework to Accelerate and Optimize Multi-Objective Manufacturing Decisions [1.5771347525430772]
本稿では、逐次学習を利用して複雑なシステムを効率的に最適化する新しいデータ駆動型ベイズ最適化フレームワークを提案する。提案フレームワークは,データ取得が高価で資源集約的な実用アプリケーションにおいて特に有用である。提案されたデータ駆動フレームワークは、コストと時間を削減して、同様の製造上の決定を下す可能性がある。
論文参考訳（メタデータ） (2023-04-18T20:33:08Z)
Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文参考訳（メタデータ） (2022-10-23T00:32:04Z)
Efficient and Accurate Top-$K$ Recovery from Choice Data [1.14219428942199]
レコメンデーションシステムのようないくつかのアプリケーションでは、統計学者は主に大量のアイテムから上位のアイテムの集合を回収することに興味がある。そこで本稿では,K$-recoveryの高速かつ高精度なランキングアルゴリズムとして,選択に基づくボルダカウントアルゴリズムを提案する。選択に基づくボルダカウントアルゴリズムは,多種多様なランダム効用モデルの下で,上位$Kの回収に最適なサンプル複雑性を有することを示す。
論文参考訳（メタデータ） (2022-06-23T22:05:08Z)
Sketching as a Tool for Understanding and Accelerating Self-attention for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文参考訳（メタデータ） (2021-12-10T06:58:05Z)
Efficient Calibration of Multi-Agent Market Simulators from Time Series with Bayesian Optimization [2.6749843984691672]
マルチエージェント市場シミュレーションは、下流の機械学習や強化学習タスクのための環境を作成するために一般的に使用される。本稿では,過去の時系列観測からマルチエージェント市場シミュレータパラメータを校正するためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-03T22:57:46Z)
Learning to Recommend Using Non-Uniform Data [7.005458308454873]
過去の購入やレビューに基づく製品のユーザの好みを学習することは、現代のレコメンデーションエンジンの基礎にある。一部のユーザーは商品を購入したりレビューしたりする傾向があり、一部の製品はユーザーによって購入またはレビューされる傾向にある。この一様でないパターンは多くの既存のレコメンデーションアルゴリズムのパワーを低下させる。
論文参考訳（メタデータ） (2021-10-21T16:17:40Z)
Knowledge transfer across cell lines using Hybrid Gaussian Process models with entity embedding vectors [62.997667081978825]
生物化学的プロセスを開発するために、多数の実験が実施されている。既に開発されたプロセスのデータを利用して、新しいプロセスの予測を行い、必要な実験の数を大幅に削減できるだろうか。
論文参考訳（メタデータ） (2020-11-27T17:38:15Z)
Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。 UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文参考訳（メタデータ） (2020-08-30T15:38:44Z)
Learning to Rank in the Position Based Model with Bandit Feedback [3.9121134770873742]
本稿では,LinUCB と Linear Thompson Sampling の2つのよく知られたアルゴリズムの拡張を提案する。生産環境におけるバイアスを考慮し,位置ベースクリックモデルを用いる。
論文参考訳（メタデータ） (2020-04-27T19:12:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。