論文の概要: LLMRec: Benchmarking Large Language Models on Recommendation Task
- arxiv url: http://arxiv.org/abs/2308.12241v1
- Date: Wed, 23 Aug 2023 16:32:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 13:25:19.793152
- Title: LLMRec: Benchmarking Large Language Models on Recommendation Task
- Title(参考訳): LLMRec: 推奨タスクによる大規模言語モデルのベンチマーク
- Authors: Junling Liu, Chao Liu, Peilin Zhou, Qichen Ye, Dading Chong, Kang
Zhou, Yueqi Xie, Yuwei Cao, Shoujin Wang, Chenyu You, Philip S.Yu
- Abstract要約: 推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
- 参考スコア(独自算出の注目度): 54.48899723591296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the fast development of Large Language Models (LLMs) such as
ChatGPT has significantly advanced NLP tasks by enhancing the capabilities of
conversational models. However, the application of LLMs in the recommendation
domain has not been thoroughly investigated. To bridge this gap, we propose
LLMRec, a LLM-based recommender system designed for benchmarking LLMs on
various recommendation tasks. Specifically, we benchmark several popular
off-the-shelf LLMs, such as ChatGPT, LLaMA, ChatGLM, on five recommendation
tasks, including rating prediction, sequential recommendation, direct
recommendation, explanation generation, and review summarization. Furthermore,
we investigate the effectiveness of supervised finetuning to improve LLMs'
instruction compliance ability. The benchmark results indicate that LLMs
displayed only moderate proficiency in accuracy-based tasks such as sequential
and direct recommendation. However, they demonstrated comparable performance to
state-of-the-art methods in explainability-based tasks. We also conduct
qualitative evaluations to further evaluate the quality of contents generated
by different models, and the results show that LLMs can truly understand the
provided information and generate clearer and more reasonable results. We
aspire that this benchmark will serve as an inspiration for researchers to
delve deeper into the potential of LLMs in enhancing recommendation
performance. Our codes, processed data and benchmark results are available at
https://github.com/williamliujl/LLMRec.
- Abstract(参考訳): 近年,ChatGPTのような大規模言語モデル(LLM)の急速な開発は,対話型モデルの能力を高めることで,NLPタスクを大幅に進歩させた。
しかし,レコメンデーション領域におけるLSMの応用は十分には研究されていない。
このギャップを埋めるため,様々なレコメンデーションタスク上でLLMをベンチマークするためのレコメンデーションシステムであるLLMRecを提案する。
具体的には,評価予測,逐次レコメンデーション,直接レコメンデーション,説明生成,要約のレビューなど5つのレコメンデーションタスクについて,チャットgpt,llama,chatglmなどの一般市販llmをベンチマークした。
さらに,LLMの命令コンプライアンス能力を向上させるために,教師付き微調整の有効性を検討する。
その結果,llmは逐次的および直接的レコメンデーションなどの正確性に基づくタスクの適度な熟練度しか示さなかった。
しかし、彼らは説明可能性ベースのタスクで最先端のメソッドに匹敵するパフォーマンスを示した。
また,異なるモデルが生成するコンテンツの質を評価するための質的評価を行い,LLMが提供した情報を真に理解し,より明確で合理的な結果を得ることができることを示した。
このベンチマークは、研究者がレコメンデーションパフォーマンスを高めるLLMの可能性を深く掘り下げるためのインスピレーションになることを期待しています。
私たちのコード、処理されたデータ、ベンチマークの結果はhttps://github.com/williamliujl/llmrec.comで閲覧できます。
関連論文リスト
- PRE: A Peer Review Based Large Language Model Evaluator [15.647772081061987]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Large Language Models are Not Stable Recommender Systems [45.941176155464824]
大規模言語モデル(LLM)における探索的研究の導入と位置バイアスの一貫したパターンの発見について述べる。
本稿では,2段階パイプラインを含むベイズ確率的フレームワークSTELLA(Stable LLM for Recommendation)を提案する。
我々のフレームワークは、既存のパターン情報を利用してLCMの不安定性を校正し、レコメンデーション性能を向上させることができる。
論文 参考訳(メタデータ) (2023-12-25T14:54:33Z) - Unlocking the Potential of Large Language Models for Explainable
Recommendations [55.29843710657637]
説明ジェネレータを最近登場した大規模言語モデル(LLM)に置き換える影響は、まだ不明である。
本研究では,シンプルで効果的な2段階説明可能なレコメンデーションフレームワークであるLLMXRecを提案する。
いくつかの重要な微調整技術を採用することで、制御可能で流動的な説明が十分に生成できる。
論文 参考訳(メタデータ) (2023-12-25T09:09:54Z) - LlamaRec: Two-Stage Recommendation using Large Language Models for
Ranking [10.671747198171136]
ランキングベースレコメンデーション(LlamaRec)のための大規模言語モデルを用いた2段階フレームワークを提案する。
特に,ユーザインタラクション履歴に基づいて候補を検索するために,小規模なシーケンシャルレコメンデータを用いる。
LlamaRecは、推奨パフォーマンスと効率の両方において、データセットの優れたパフォーマンスを一貫して達成している。
論文 参考訳(メタデータ) (2023-10-25T06:23:48Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Evaluating Large Language Models at Evaluating Instruction Following [57.74447923909296]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,これらの「LLM評価器」の有効性について検討する。
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - A Survey on Large Language Models for Recommendation [80.01023231943205]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - On Learning to Summarize with Large Language Models as References [105.62615205746106]
本研究では,大規模言語モデル(LLM)を,データセット上のゴールドスタンダード・オラクルの参照あるいは参照とみなす新たな学習環境について検討する。
CNN/DailyMailおよびXSumデータセットの実験では、より小さな要約モデルがLLMと同等のパフォーマンスを達成できることが示されている。
しかし,人間による評価では,小型モデルではLLMレベルに到達できないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。