論文の概要: Benchmarking LLMs in Recommendation Tasks: A Comparative Evaluation with Conventional Recommenders
- arxiv url: http://arxiv.org/abs/2503.05493v1
- Date: Fri, 07 Mar 2025 15:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:23:09.461392
- Title: Benchmarking LLMs in Recommendation Tasks: A Comparative Evaluation with Conventional Recommenders
- Title(参考訳): レコメンデーションタスクにおけるLCMのベンチマーク:従来のレコメンデーションとの比較評価
- Authors: Qijiong Liu, Jieming Zhu, Lu Fan, Kun Wang, Hengchang Hu, Wei Guo, Yong Liu, Xiao-Ming Wu,
- Abstract要約: 本稿では、クリックスルーレート予測(CTR)とシーケンシャルレコメンデーション(SeqRec)という2つの主要なレコメンデーションタスクを評価するRecBenchを紹介する。
実験は最大17種類の大モデルを対象としており、ファッション、ニュース、ビデオ、書籍、音楽ドメインの5つの多様なデータセットで実施されている。
以上の結果から,LCMベースのレコメンデータは従来のレコメンデータよりも優れ,CTRシナリオでは最大5%のAUC改善,SeqRecシナリオでは最大170%のNDCG@10改善を実現した。
- 参考スコア(独自算出の注目度): 27.273217543282215
- License:
- Abstract: In recent years, integrating large language models (LLMs) into recommender systems has created new opportunities for improving recommendation quality. However, a comprehensive benchmark is needed to thoroughly evaluate and compare the recommendation capabilities of LLMs with traditional recommender systems. In this paper, we introduce RecBench, which systematically investigates various item representation forms (including unique identifier, text, semantic embedding, and semantic identifier) and evaluates two primary recommendation tasks, i.e., click-through rate prediction (CTR) and sequential recommendation (SeqRec). Our extensive experiments cover up to 17 large models and are conducted across five diverse datasets from fashion, news, video, books, and music domains. Our findings indicate that LLM-based recommenders outperform conventional recommenders, achieving up to a 5% AUC improvement in the CTR scenario and up to a 170% NDCG@10 improvement in the SeqRec scenario. However, these substantial performance gains come at the expense of significantly reduced inference efficiency, rendering the LLM-as-RS paradigm impractical for real-time recommendation environments. We aim for our findings to inspire future research, including recommendation-specific model acceleration methods. We will release our code, data, configurations, and platform to enable other researchers to reproduce and build upon our experimental results.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)をレコメンデーションシステムに統合することで,レコメンデーション品質を改善する新たな機会が生まれている。
しかし、従来のレコメンデータシステムとLLMのレコメンデーション機能を徹底的に評価し比較するためには、包括的なベンチマークが必要である。
本稿では,さまざまな項目表現形式(ユニークな識別子,テキスト,セマンティック埋め込み,セマンティック識別子など)を体系的に検討し,クリックスルーレート予測(CTR)とシーケンシャルレコメンデーション(SeqRec)という2つの主要なレコメンデーションタスクを評価するRecBenchを紹介する。
われわれの大規模な実験は、最大17の大規模なモデルをカバーするとともに、ファッション、ニュース、ビデオ、本、音楽ドメインの5つの多様なデータセットで実施されている。
以上の結果から,LCMベースのレコメンデータは従来のレコメンデータよりも優れ,CTRシナリオでは最大5%のAUC改善,SeqRecシナリオでは最大170%のNDCG@10改善を実現した。
しかし、これらの大幅な性能向上は推論効率を大幅に低下させ、リアルタイムレコメンデーション環境においてLLM-as-RSパラダイムは非現実的となる。
本研究は,提案するモデルアクセラレーション手法を含む今後の研究を促すことを目的としている。
私たちは、他の研究者が実験結果を再現して構築できるように、コード、データ、設定、プラットフォームをリリースします。
関連論文リスト
- Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [54.93461228053298]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。
このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文 参考訳(メタデータ) (2024-12-23T08:15:34Z) - Towards Scalable Semantic Representation for Recommendation [65.06144407288127]
大規模言語モデル(LLM)に基づく意味的IDを構築するために、Mixture-of-Codesを提案する。
提案手法は,識別性と寸法の堅牢性に優れたスケーラビリティを実現し,提案手法で最高のスケールアップ性能を実現する。
論文 参考訳(メタデータ) (2024-10-12T15:10:56Z) - RLRF4Rec: Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Reranking [33.54698201942643]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。
本稿では,Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Re rankを組み込んだ新しいフレームワークであるRLRF4Recを紹介する。
論文 参考訳(メタデータ) (2024-10-08T11:42:37Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。
LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。
我々の手法は既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-08-15T15:56:23Z) - CherryRec: Enhancing News Recommendation Quality via LLM-driven Framework [4.4206696279087]
我々は,textitCherryRecという名前のLarge Language Models (LLMs) を用いたニュースレコメンデーションフレームワークを提案する。
CherryRecは、レコメンデーションプロセスを加速しながら、レコメンデーションの品質を保証する。
提案手法の有効性を,ベンチマークデータセット上での最先端のベースライン手法と比較することにより検証する。
論文 参考訳(メタデータ) (2024-06-18T03:33:38Z) - Finetuning Large Language Model for Personalized Ranking [12.16551080986962]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。
DMPO(Direct Multi-Preference Optimization)は、リコメンデーションタスクのギャップを埋め、LLMのアライメントを強化するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-05-25T08:36:15Z) - LlamaRec: Two-Stage Recommendation using Large Language Models for
Ranking [10.671747198171136]
ランキングベースレコメンデーション(LlamaRec)のための大規模言語モデルを用いた2段階フレームワークを提案する。
特に,ユーザインタラクション履歴に基づいて候補を検索するために,小規模なシーケンシャルレコメンデータを用いる。
LlamaRecは、推奨パフォーマンスと効率の両方において、データセットの優れたパフォーマンスを一貫して達成している。
論文 参考訳(メタデータ) (2023-10-25T06:23:48Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。