論文の概要: Exploration in two-stage recommender systems
- arxiv url: http://arxiv.org/abs/2009.08956v1
- Date: Tue, 1 Sep 2020 16:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 00:51:19.605353
- Title: Exploration in two-stage recommender systems
- Title(参考訳): 2段階レコメンデーションシステムにおける探索
- Authors: Jiri Hron and Karl Krauth and Michael I. Jordan and Niki Kilbertus
- Abstract要約: 2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
- 参考スコア(独自算出の注目度): 79.50534282841618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-stage recommender systems are widely adopted in industry due to their
scalability and maintainability. These systems produce recommendations in two
steps: (i) multiple nominators preselect a small number of items from a large
pool using cheap-to-compute item embeddings; (ii) with a richer set of
features, a ranker rearranges the nominated items and serves them to the user.
A key challenge of this setup is that optimal performance of each stage in
isolation does not imply optimal global performance. In response to this issue,
Ma et al. (2020) proposed a nominator training objective importance weighted by
the ranker's probability of recommending each item. In this work, we focus on
the complementary issue of exploration. Modeled as a contextual bandit problem,
we find LinUCB (a near optimal exploration strategy for single-stage systems)
may lead to linear regret when deployed in two-stage recommenders. We therefore
propose a method of synchronising the exploration strategies between the ranker
and the nominators. Our algorithm only relies on quantities already computed by
standard LinUCB at each stage and can be implemented in three lines of
additional code. We end by demonstrating the effectiveness of our algorithm
experimentally.
- Abstract(参考訳): 2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
これらのシステムは2つのステップで推奨する。
(i)複数名詞は、安価で計算可能な項目の埋め込みを用いて、大プールから少数の項目を選別する。
(ii) よりリッチな機能セットにより、ランク付け者が指定項目を並べ替え、ユーザに提供する。
この設定の鍵となる課題は、各ステージの最適性能が最適グローバルパフォーマンスを意味するものではないことである。
この問題への対応として、Ma et al. (2020) は、各項目を推薦するランクの確率によって重み付けられた、名詞の訓練目標を提案した。
本研究では,探索の補完的な問題に焦点をあてる。
文脈的バンディット問題としてモデル化されたLinUCB(単段システムにおけるほぼ最適探索戦略)は、2段リコメンデータにデプロイした場合に線形後悔を引き起こす可能性がある。
そこで本稿では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
我々のアルゴリズムは、各段階で標準LinUCBで計算された量にのみ依存しており、3行の追加コードで実装できる。
最後に,アルゴリズムの有効性を実験的に実証する。
関連論文リスト
- Adaptive Neural Ranking Framework: Toward Maximized Business Goal for
Cascade Ranking Systems [33.46891569350896]
カスケードランキングは、オンライン広告とレコメンデーションシステムにおける大規模なトップk選択問題に広く使われている。
それまでの学習からランクへの取り組みは、モデルに完全な順序やトップクオーダを学習させることに重点を置いていた。
我々はこの手法をアダプティブ・ニューラルランキング・フレームワーク (Adaptive Neural Ranking Framework, ARF) と命名する。
論文 参考訳(メタデータ) (2023-10-16T14:43:02Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Fairness in the First Stage of Two-Stage Recommender Systems [28.537935838669423]
大規模レコメンデーションシステムにおける項目の公平性を確保する方法について検討する。
既存の第一段階の推薦者は不公平な候補者を選ぶかもしれない。
本稿では,2つのしきい値選択ルールを提案する。
論文 参考訳(メタデータ) (2022-05-30T21:21:38Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - On component interactions in two-stage recommender systems [82.38014314502861]
2段階のレコメンデータは、YouTube、LinkedIn、Pinterestなど、多くのオンラインプラットフォームで使用されている。
ランク付け器と評価器の相互作用が全体の性能に大きく影響していることが示される。
特に、Mixture-of-Expertsアプローチを用いて、アイテムプールの異なるサブセットに特化するように、ノミネータを訓練する。
論文 参考訳(メタデータ) (2021-06-28T20:53:23Z) - Sparse Reward Exploration via Novelty Search and Emitters [55.41644538483948]
本稿では,SparsE Reward Exploration via Novelty and Emitters (SERENE)アルゴリズムを提案する。
SERENEは、探索空間の探索と報酬の搾取を2つの交互プロセスに分けている。
メタスケジューラは、2つのプロセス間の交互にグローバルな計算予算を割り当てる。
論文 参考訳(メタデータ) (2021-02-05T12:34:54Z) - Sample-Rank: Weak Multi-Objective Recommendations Using Rejection
Sampling [0.5156484100374059]
本稿では,マルチゴールサンプリングとユーザ関連度(Sample-Rank)のランク付けによるマーケットプレースの多目的目標への推薦手法を提案する。
提案手法の新規性は,望まれるマルチゴール分布からサンプリングするMOレコメンデーション問題を低減し,プロダクションフレンドリーな学習-ランクモデルを構築することである。
論文 参考訳(メタデータ) (2020-08-24T09:17:18Z) - Deep Retrieval: Learning A Retrievable Structure for Large-Scale
Recommendations [21.68175843347951]
本稿では,ユーザとイテムのインタラクションデータを用いて,検索可能な構造を直接学習するために,Deep Retrieval(DR)を提案する。
DRは、産業レコメンデーションシステムのために数億のアイテムをスケールで展開した最初の非ANNアルゴリズムの1つである。
論文 参考訳(メタデータ) (2020-07-12T06:23:51Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。