論文の概要: Optimism Based Exploration in Large-Scale Recommender Systems
- arxiv url: http://arxiv.org/abs/2304.02572v1
- Date: Wed, 5 Apr 2023 16:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 12:06:59.391022
- Title: Optimism Based Exploration in Large-Scale Recommender Systems
- Title(参考訳): 大規模レコメンダシステムにおける最適化に基づく探索
- Authors: Hongbo Guo, Ruben Naeff, Alex Nikulkov, Zheqing Zhu
- Abstract要約: バンド学習アルゴリズムは、リコメンデータシステムにとって、ますますポピュラーな設計選択である。
最も重要なボトルネックの2つは、マルチタスクとA/Bテストへのスケーリングである。
本稿では,レコメンデーションシステムのための生産ラジット学習ライフサイクルの設計について述べる。
- 参考スコア(独自算出の注目度): 0.7981257687111937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bandit learning algorithms have been an increasingly popular design choice
for recommender systems. Despite the strong interest in bandit learning from
the community, there remains multiple bottlenecks that prevent many bandit
learning approaches from productionalization. Two of the most important
bottlenecks are scaling to multi-task and A/B testing. Classic bandit
algorithms, especially those leveraging contextual information, often requires
reward for uncertainty estimation, which hinders their adoptions in multi-task
recommender systems. Moreover, different from supervised learning algorithms,
bandit learning algorithms emphasize greatly on the data collection process
through their explorative nature. Such explorative behavior induces unfair
evaluation for bandit learning agents in a classic A/B test setting. In this
work, we present a novel design of production bandit learning life-cycle for
recommender systems, along with a novel set of metrics to measure their
efficiency in user exploration. We show through large-scale production
recommender system experiments and in-depth analysis that our bandit agent
design improves personalization for the production recommender system and our
experiment design fairly evaluates the performance of bandit learning
algorithms.
- Abstract(参考訳): バンド学習アルゴリズムは、リコメンデータシステムにとって、ますますポピュラーな設計選択である。
コミュニティからのバンディット学習への強い関心にもかかわらず、多くのバンディット学習アプローチが生産化を妨げている複数のボトルネックが残っている。
最も重要なボトルネックの2つは、マルチタスクとA/Bテストへのスケーリングである。
古典的バンディットアルゴリズム、特に文脈情報を活用するアルゴリズムは、しばしば不確実性推定の報酬を必要とし、マルチタスクレコメンデータシステムにおける彼らの採用を妨げる。
さらに、教師付き学習アルゴリズムとは異なり、バンディット学習アルゴリズムは探索的性質を通じてデータ収集プロセスに重点を置いている。
このような探索的行動は、古典的なa/bテスト設定において、バンディット学習エージェントに対する不公平な評価を引き起こす。
本稿では,レコメンダシステムのための生産バンディット学習ライフサイクルの新しいデザインと,ユーザ探索における効率を測定するための新しいメトリクスセットを提案する。
本研究は,大規模生産レコメンダシステム実験およびバンディットエージェント設計が生産レコメンダシステムのパーソナライズを改善し,実験設計がバンディット学習アルゴリズムの性能をかなり評価することを示す。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Jump Starting Bandits with LLM-Generated Prior Knowledge [5.344012058238259]
大規模言語モデルは、オンライン学習の後悔を減らすために、文脈的マルチアームバンディットを飛躍的に開始できることを示す。
そこで本稿では,LLMに対して,バンドイットに近似した人選好の事前学習データセットを作成するように促すことにより,コンテキスト的帯域幅を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-27T16:52:19Z) - Deep Exploration for Recommendation Systems [14.937000494745861]
我々はレコメンデーションシステムのための深層探査手法を開発した。
特に、逐次決定問題としてレコメンデーションを定式化する。
本実験は高忠実度産業用シミュレータを用いて行った。
論文 参考訳(メタデータ) (2021-09-26T06:54:26Z) - Multiclass Classification using dilute bandit feedback [8.452237741722726]
希薄帯域フィードバック(MC-DBF)を用いたマルチクラス分類アルゴリズムを提案する。
提案アルゴリズムは,候補ラベルセットのサイズ(各ステップ)が m であれば,O(T1-frac1m+2) の誤差を達成できることを示す。
論文 参考訳(メタデータ) (2021-05-17T18:05:34Z) - An empirical evaluation of active inference in multi-armed bandits [0.0]
アクティブ推論フレームワークは、探索と探索のトレードオフを解決するための洗練された戦略によって区別される。
効率的で近似可能なスケーラブルなアクティブ推論アルゴリズムを導き出し、2つの最先端のバンディットアルゴリズムと比較します。
論文 参考訳(メタデータ) (2021-01-21T16:20:06Z) - Lifelong Learning in Multi-Armed Bandits [22.301793734117805]
本研究では,複数台のバンディットフレームワークの問題点を,一連のタスクで発生した後悔を最小化することを目的として検討する。
ほとんどのバンディットアルゴリズムは、最悪のケースの後悔が少ないように設計されていますが、ここでは、以前のディストリビューションから引き出されたバンディットインスタンスに対する平均的な後悔を調べます。
論文 参考訳(メタデータ) (2020-12-28T15:13:31Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。