論文の概要: MultiSlot ReRanker: A Generic Model-based Re-Ranking Framework in
Recommendation Systems
- arxiv url: http://arxiv.org/abs/2401.06293v1
- Date: Thu, 11 Jan 2024 23:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:44:00.019047
- Title: MultiSlot ReRanker: A Generic Model-based Re-Ranking Framework in
Recommendation Systems
- Title(参考訳): MultiSlot ReRanker:レコメンデーションシステムにおけるジェネリックモデルに基づくリランキングフレームワーク
- Authors: Qiang Charles Xiao, Ajith Muralidharan, Birjodh Tiwana, Johnson Jia,
Fedor Borisyuk, Aman Gupta, Dawn Woodard
- Abstract要約: 本稿では,汎用モデルに基づくリグレードフレームワークであるMultiSlot ReRankerを提案し,その妥当性,多様性,鮮度を同時に最適化する。
我々は,OpenAI GymをRayフレームワークに統合したマルチスロットリグレードシミュレータを構築した。
- 参考スコア(独自算出の注目度): 6.0232112783722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a generic model-based re-ranking framework,
MultiSlot ReRanker, which simultaneously optimizes relevance, diversity, and
freshness. Specifically, our Sequential Greedy Algorithm (SGA) is efficient
enough (linear time complexity) for large-scale production recommendation
engines. It achieved a lift of $+6\%$ to $ +10\%$ offline Area Under the
receiver operating characteristic Curve (AUC) which is mainly due to explicitly
modeling mutual influences among items of a list, and leveraging the second
pass ranking scores of multiple objectives. In addition, we have generalized
the offline replay theory to multi-slot re-ranking scenarios, with trade-offs
among multiple objectives. The offline replay results can be further improved
by Pareto Optimality. Moreover, we've built a multi-slot re-ranking simulator
based on OpenAI Gym integrated with the Ray framework. It can be easily
configured for different assumptions to quickly benchmark both reinforcement
learning and supervised learning algorithms.
- Abstract(参考訳): 本稿では,妥当性,多様性,鮮度を同時に最適化する汎用モデルに基づくマルチスロットリランクフレームワークであるmultislot rerankerを提案する。
具体的には,SGA(Sequential Greedy Algorithm)は大規模生産レコメンデーションエンジンに十分な効率(線形時間複雑性)を持つ。
これは、リストの項目間の相互影響を明示的にモデル化し、複数の目的の2番目のパスランキングスコアを活用するために、受信機の動作特性であるCurve (AUC)の下で、+6\%$から$ +10\%$オフラインエリアを達成した。
さらに,オフラインリプレイ理論をマルチスロットリランキングシナリオに一般化し,複数の目的間のトレードオフを行った。
オフラインの再生結果はPareto Optimalityによってさらに改善される。
さらに,ray フレームワークと統合した openai gym をベースとするマルチスロット再ランキングシミュレータを構築した。
異なる仮定に対して簡単に設定でき、強化学習と教師付き学習アルゴリズムの両方を素早くベンチマークすることができる。
関連論文リスト
- ALaRM: Align Language Models via Hierarchical Rewards Modeling [44.83557463079048]
ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。
このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。
我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-11T14:28:40Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Tightly Coupled Learning Strategy for Weakly Supervised Hierarchical
Place Recognition [0.09558392439655011]
本稿では,三重項モデルを学習するための密結合学習(TCL)戦略を提案する。
グローバルデクリプタとローカルデクリプタを組み合わせて、共同最適化を行う。
我々の軽量統一モデルは、いくつかの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-02-14T03:20:39Z) - Learning-To-Ensemble by Contextual Rank Aggregation in E-Commerce [8.067201256886733]
本稿では,アンサンブルモデルを文脈的ランクアグリゲータに置き換えた新しいラーニング・トゥ・エンサンブル・フレームワークRAEGOを提案する。
RA-EGOは当社のオンラインシステムにデプロイされ、収益を大幅に改善しました。
論文 参考訳(メタデータ) (2021-07-19T03:24:06Z) - CRACT: Cascaded Regression-Align-Classification for Robust Visual
Tracking [97.84109669027225]
改良された提案改良モジュールCascaded Regression-Align- Classification (CRAC)を導入する。
CRACは多くのベンチマークで最先端のパフォーマンスを得る。
OTB-2015、UAV123、NfS、VOT-2018、TrackingNet、GOT-10k、LaSOTを含む7つのベンチマークの実験において、我々のCRACTは最先端の競合他社と比較して非常に有望な結果を示している。
論文 参考訳(メタデータ) (2020-11-25T02:18:33Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。