論文の概要: Evaluating Online Bandit Exploration In Large-Scale Recommender System
- arxiv url: http://arxiv.org/abs/2304.02572v3
- Date: Sun, 30 Jul 2023 08:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 23:05:36.408503
- Title: Evaluating Online Bandit Exploration In Large-Scale Recommender System
- Title(参考訳): 大規模レコメンデーションシステムにおけるオンラインバンディット探索の評価
- Authors: Hongbo Guo, Ruben Naeff, Alex Nikulkov, Zheqing Zhu
- Abstract要約: バンド学習は、リコメンデーターシステムにとって、ますますポピュラーなデザイン選択である。
1つの大きなボトルネックは、公正さとデータリークのない帯域幅アルゴリズムの有効性をテストする方法である。
- 参考スコア(独自算出の注目度): 0.7981257687111937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bandit learning has been an increasingly popular design choice for
recommender system. Despite the strong interest in bandit learning from the
community, there remains multiple bottlenecks that prevent many bandit learning
approaches from productionalization. One major bottleneck is how to test the
effectiveness of bandit algorithm with fairness and without data leakage.
Different from supervised learning algorithms, bandit learning algorithms
emphasize greatly on the data collection process through their explorative
nature. Such explorative behavior may induce unfair evaluation in a classic A/B
test setting. In this work, we apply upper confidence bound (UCB) to our large
scale short video recommender system and present a test framework for the
production bandit learning life-cycle with a new set of metrics. Extensive
experiment results show that our experiment design is able to fairly evaluate
the performance of bandit learning in the recommender system.
- Abstract(参考訳): バンディット学習はレコメンダシステムのためのデザイン選択として人気が高まっている。
コミュニティからのバンディット学習への強い関心にもかかわらず、多くのバンディット学習アプローチが生産化を妨げている複数のボトルネックが残っている。
ひとつの大きなボトルネックは、公正でデータ漏洩のないbanditアルゴリズムの有効性をテストする方法である。
教師付き学習アルゴリズムとは異なり、バンディット学習アルゴリズムは探索的性質を通じてデータ収集プロセスに重点を置いている。
このような探索的行動は、古典的なa/bテスト設定において不公平な評価を引き起こす可能性がある。
本研究では,我々の大規模ショートビデオレコメンデータシステムに対して,uper confidence bound(ucb)を適用し,新しいメトリクスセットを用いた生産バンディット学習ライフサイクルのためのテストフレームワークを提案する。
広範な実験結果から,実験設計は推薦システムにおけるバンディット学習の性能を十分に評価できることがわかった。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Jump Starting Bandits with LLM-Generated Prior Knowledge [5.344012058238259]
大規模言語モデルは、オンライン学習の後悔を減らすために、文脈的マルチアームバンディットを飛躍的に開始できることを示す。
そこで本稿では,LLMに対して,バンドイットに近似した人選好の事前学習データセットを作成するように促すことにより,コンテキスト的帯域幅を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-27T16:52:19Z) - Deep Exploration for Recommendation Systems [14.937000494745861]
我々はレコメンデーションシステムのための深層探査手法を開発した。
特に、逐次決定問題としてレコメンデーションを定式化する。
本実験は高忠実度産業用シミュレータを用いて行った。
論文 参考訳(メタデータ) (2021-09-26T06:54:26Z) - Multiclass Classification using dilute bandit feedback [8.452237741722726]
希薄帯域フィードバック(MC-DBF)を用いたマルチクラス分類アルゴリズムを提案する。
提案アルゴリズムは,候補ラベルセットのサイズ(各ステップ)が m であれば,O(T1-frac1m+2) の誤差を達成できることを示す。
論文 参考訳(メタデータ) (2021-05-17T18:05:34Z) - An empirical evaluation of active inference in multi-armed bandits [0.0]
アクティブ推論フレームワークは、探索と探索のトレードオフを解決するための洗練された戦略によって区別される。
効率的で近似可能なスケーラブルなアクティブ推論アルゴリズムを導き出し、2つの最先端のバンディットアルゴリズムと比較します。
論文 参考訳(メタデータ) (2021-01-21T16:20:06Z) - Lifelong Learning in Multi-Armed Bandits [22.301793734117805]
本研究では,複数台のバンディットフレームワークの問題点を,一連のタスクで発生した後悔を最小化することを目的として検討する。
ほとんどのバンディットアルゴリズムは、最悪のケースの後悔が少ないように設計されていますが、ここでは、以前のディストリビューションから引き出されたバンディットインスタンスに対する平均的な後悔を調べます。
論文 参考訳(メタデータ) (2020-12-28T15:13:31Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。