論文の概要: Efficient course recommendations with T5-based ranking and summarization
- arxiv url: http://arxiv.org/abs/2406.19018v1
- Date: Thu, 27 Jun 2024 09:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 21:11:21.547485
- Title: Efficient course recommendations with T5-based ranking and summarization
- Title(参考訳): T5に基づく格付けと要約による効率的なコース推薦
- Authors: Thijmen Bijl, Niels van Weeren, Suzan Verberne,
- Abstract要約: そこで我々は,MSMARCOをリランカとしてLandT5を微調整した2段階探索パイプラインを開発した。
新たにラベル付けされた2つのデータセットに対して,A/Bテストとユーザアンケートでランク付けを行った。
オンラインコースレコメンデーションのためのT5ベースの再ランク付けと要約は、単一ステップの語彙検索よりもはるかに優れた効果が得られると結論付けている。
- 参考スコア(独自算出の注目度): 2.6968321526169503
- License:
- Abstract: In this paper, we implement and evaluate a two-stage retrieval pipeline for a course recommender system that ranks courses for skill-occupation pairs. The in-production recommender system BrightFit provides course recommendations from multiple sources. Some of the course descriptions are long and noisy, while retrieval and ranking in an online system have to be highly efficient. We developed a two-step retrieval pipeline with RankT5 finetuned on MSMARCO as re-ranker. We compare two summarizers for course descriptions: a LongT5 model that we finetuned for the task, and a generative LLM (Vicuna) with in-context learning. We experiment with quantization to reduce the size of the ranking model and increase inference speed. We evaluate our rankers on two newly labelled datasets, with an A/B test, and with a user questionnaire. On the two labelled datasets, our proposed two-stage ranking with automatic summarization achieves a substantial improvement over the in-production (BM25) ranker: nDCG@10 scores improve from 0.482 to 0.684 and from 0.447 to 0.844 on the two datasets. We also achieve a 40% speed-up by using a quantized version of RankT5. The improved quality of the ranking was confirmed by the questionnaire completed by 29 respondents, but not by the A/B test. In the A/B test, a higher clickthrough rate was observed for the BM25-ranking than for the proposed two-stage retrieval. We conclude that T5-based re-ranking and summarization for online course recommendation can obtain much better effectiveness than single-step lexical retrieval, and that quantization has a large effect on RankT5. In the online evaluation, however, other factors than relevance play a role (such as speed and interpretability of the retrieval results), as well as individual preferences.
- Abstract(参考訳): 本稿では,2段階探索パイプラインを用いて,2段階探索パイプラインの実装と評価を行う。
実運用のレコメンデーションシステムであるBrightFitは、複数のソースからコースレコメンデーションを提供している。
コース記述のいくつかは長くうるさいが、オンラインシステムにおける検索とランキングは非常に効率的でなければならない。
そこで我々は,MSMARCOをリランカとしてLandT5を微調整した2段階探索パイプラインを開発した。
コース記述の要約として,タスクを微調整したLongT5モデルと,テキスト内学習を用いたジェネレーティブLLM(Vicuna)を比較した。
我々は、ランキングモデルのサイズを減らし、推論速度を向上させるために量子化を試みている。
新たにラベル付けされた2つのデータセットに対して,A/Bテストとユーザアンケートでランク付けを行った。
2つのラベル付きデータセットでは、自動要約による2段階のランク付けが、生産段階(BM25)のランク付けよりも大幅に改善され、nDCG@10スコアは0.482から0.684に改善され、2つのデータセットでは0.447から0.844に改善された。
RankT5の量子化バージョンを用いて40%の高速化を実現した。
回答は29名であったが,A/Bテストでは確認されなかった。
A/B試験では,提案した2段階検索よりもBM25レベルのクリックスルー率が高かった。
オンラインコースレコメンデーションのためのT5ベースの再ランク付けと要約は、単一ステップの語彙検索よりもはるかに有効であり、量子化はRangeT5に大きな影響を及ぼすと結論付けている。
しかし、オンライン評価においては、関連性以外の要因(検索結果の速度や解釈可能性など)や個人の嗜好の役割も担っている。
関連論文リスト
- Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking [2.5238707656136694]
マルチモーダル検索・ランキング(GCL)のための一般化コントラスト学習を提案する。
GCLは、バイナリ関連スコアを超えて、きめ細かいランキングから学ぶように設計されている。
以上の結果から,GCLはドメイン内NDCG@10が94.5%,コールドスタート評価が26.3~48.8%増加した。
論文 参考訳(メタデータ) (2024-04-12T15:30:03Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - RocketQAv2: A Joint Training Method for Dense Passage Retrieval and
Passage Re-ranking [89.82301733609279]
本稿では,高密度経路検索と再ランク付けのための新しい共同学習手法を提案する。
主な貢献は、動的リストワイズ蒸留を導入し、レトリバーと再ランカの両方に統一されたリストワイズトレーニングアプローチを設計することである。
ダイナミック蒸留中は、レトリバーとリランカは、互いの関連情報に応じて適応的に改善することができる。
論文 参考訳(メタデータ) (2021-10-14T13:52:55Z) - Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T16:49:18Z) - A Systematic Evaluation of Transfer Learning and Pseudo-labeling with
BERT-based Ranking Models [2.0498977512661267]
BERTに基づく5つの英語データセット間のニューラルランキングモデルの転送性を評価する。
各コレクションには膨大な数のクエリがあり、フルショット評価モードを可能にします。
擬似ラベルのトレーニングは、転送学習と比較して、競争力や優れたモデルを生み出すことができる。
論文 参考訳(メタデータ) (2021-03-04T21:08:06Z) - PiRank: Learning To Rank via Differentiable Sorting [85.28916333414145]
ランク付けのための新しい分類可能なサロゲートであるPiRankを提案する。
ピランクは所望の指標をゼロ温度の限界で正確に回収する。
論文 参考訳(メタデータ) (2020-12-12T05:07:36Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Listwise Learning to Rank with Deep Q-Networks [3.9726605190181976]
我々は、q-learning to rank agentであるDeepQRankが、最先端と見なせるパフォーマンスを示すことを示した。
我々は、MicrosoftのLETORリストワイズデータセットに対してアルゴリズムを実行し、0.5075のNDCG@1を達成し、主要な教師付き学習モデルSVMRank(0.4958)をわずかに上回った。
論文 参考訳(メタデータ) (2020-02-13T22:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。