論文の概要: MultiSlot ReRanker: A Generic Model-based Re-Ranking Framework in
Recommendation Systems
- arxiv url: http://arxiv.org/abs/2401.06293v1
- Date: Thu, 11 Jan 2024 23:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:44:00.019047
- Title: MultiSlot ReRanker: A Generic Model-based Re-Ranking Framework in
Recommendation Systems
- Title(参考訳): MultiSlot ReRanker:レコメンデーションシステムにおけるジェネリックモデルに基づくリランキングフレームワーク
- Authors: Qiang Charles Xiao, Ajith Muralidharan, Birjodh Tiwana, Johnson Jia,
Fedor Borisyuk, Aman Gupta, Dawn Woodard
- Abstract要約: 本稿では,汎用モデルに基づくリグレードフレームワークであるMultiSlot ReRankerを提案し,その妥当性,多様性,鮮度を同時に最適化する。
我々は,OpenAI GymをRayフレームワークに統合したマルチスロットリグレードシミュレータを構築した。
- 参考スコア(独自算出の注目度): 6.0232112783722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a generic model-based re-ranking framework,
MultiSlot ReRanker, which simultaneously optimizes relevance, diversity, and
freshness. Specifically, our Sequential Greedy Algorithm (SGA) is efficient
enough (linear time complexity) for large-scale production recommendation
engines. It achieved a lift of $+6\%$ to $ +10\%$ offline Area Under the
receiver operating characteristic Curve (AUC) which is mainly due to explicitly
modeling mutual influences among items of a list, and leveraging the second
pass ranking scores of multiple objectives. In addition, we have generalized
the offline replay theory to multi-slot re-ranking scenarios, with trade-offs
among multiple objectives. The offline replay results can be further improved
by Pareto Optimality. Moreover, we've built a multi-slot re-ranking simulator
based on OpenAI Gym integrated with the Ray framework. It can be easily
configured for different assumptions to quickly benchmark both reinforcement
learning and supervised learning algorithms.
- Abstract(参考訳): 本稿では,妥当性,多様性,鮮度を同時に最適化する汎用モデルに基づくマルチスロットリランクフレームワークであるmultislot rerankerを提案する。
具体的には,SGA(Sequential Greedy Algorithm)は大規模生産レコメンデーションエンジンに十分な効率(線形時間複雑性)を持つ。
これは、リストの項目間の相互影響を明示的にモデル化し、複数の目的の2番目のパスランキングスコアを活用するために、受信機の動作特性であるCurve (AUC)の下で、+6\%$から$ +10\%$オフラインエリアを達成した。
さらに,オフラインリプレイ理論をマルチスロットリランキングシナリオに一般化し,複数の目的間のトレードオフを行った。
オフラインの再生結果はPareto Optimalityによってさらに改善される。
さらに,ray フレームワークと統合した openai gym をベースとするマルチスロット再ランキングシミュレータを構築した。
異なる仮定に対して簡単に設定でき、強化学習と教師付き学習アルゴリズムの両方を素早くベンチマークすることができる。
関連論文リスト
- Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - RAMQA: A Unified Framework for Retrieval-Augmented Multi-Modal Question Answering [9.915889321513678]
RAMQAは、学習からランクまでの手法と、生成的な置換によるランク付け技術を組み合わせた統一的なフレームワークである。
生成的ランキングモデルでは,文書候補から再ランク付けされた文書IDと特定の回答を生成する。
論文 参考訳(メタデータ) (2025-01-23T00:50:33Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Train Once, Deploy Anywhere: Matryoshka Representation Learning for Multimodal Recommendation [27.243116376164906]
マルチモーダルレコメンデーションのための大規模Matryoshka表現学習(fMRLRec)という軽量フレームワークを導入する。
当社のfMRLRecは,複数次元にわたる効率的なレコメンデーションのための情報表現を学習し,各項目の特徴を異なる粒度で捉えている。
複数のベンチマークデータセットに対するfMRLRecの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-09-25T05:12:07Z) - LLM4Rerank: LLM-based Auto-Reranking Framework for Recommendations [51.76373105981212]
リグレードはレコメンデーションシステムにおいて重要な要素であり、レコメンデーションアルゴリズムの出力を精査する上で重要な役割を果たす。
そこで我々は,様々な格付け基準をシームレスに統合する包括的格付けフレームワークを提案する。
カスタマイズ可能な入力機構も統合されており、言語モデルのフォーカスを特定の再配置のニーズに合わせることができる。
論文 参考訳(メタデータ) (2024-06-18T09:29:18Z) - ALaRM: Align Language Models via Hierarchical Rewards Modeling [41.79125107279527]
ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。
このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。
我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-11T14:28:40Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。
結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T16:45:19Z) - Tightly Coupled Learning Strategy for Weakly Supervised Hierarchical
Place Recognition [0.09558392439655011]
本稿では,三重項モデルを学習するための密結合学習(TCL)戦略を提案する。
グローバルデクリプタとローカルデクリプタを組み合わせて、共同最適化を行う。
我々の軽量統一モデルは、いくつかの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-02-14T03:20:39Z) - Learning-To-Ensemble by Contextual Rank Aggregation in E-Commerce [8.067201256886733]
本稿では,アンサンブルモデルを文脈的ランクアグリゲータに置き換えた新しいラーニング・トゥ・エンサンブル・フレームワークRAEGOを提案する。
RA-EGOは当社のオンラインシステムにデプロイされ、収益を大幅に改善しました。
論文 参考訳(メタデータ) (2021-07-19T03:24:06Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。