論文の概要: Beyond Utility: Evaluating LLM as Recommender
- arxiv url: http://arxiv.org/abs/2411.00331v1
- Date: Fri, 01 Nov 2024 03:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 11:30:21.543967
- Title: Beyond Utility: Evaluating LLM as Recommender
- Title(参考訳): 実用性を超えて - LLMをレコメンダとして評価する
- Authors: Chumeng Jiang, Jiayin Wang, Weizhi Ma, Charles L. A. Clarke, Shuai Wang, Chuhan Wu, Min Zhang,
- Abstract要約: 4つの新しい評価次元を探索し,多次元評価フレームワークを提案する。
新しい評価基準には、履歴長感度、候補位置バイアス、生成関連性能、4)幻覚がある。
この多次元評価フレームワークを従来の側面とともに 7 つの LLM ベースのレコメンデータの性能を評価する。
- 参考スコア(独自算出の注目度): 47.97889161958022
- License:
- Abstract: With the rapid development of Large Language Models (LLMs), recent studies employed LLMs as recommenders to provide personalized information services for distinct users. Despite efforts to improve the accuracy of LLM-based recommendation models, relatively little attention is paid to beyond-utility dimensions. Moreover, there are unique evaluation aspects of LLM-based recommendation models, which have been largely ignored. To bridge this gap, we explore four new evaluation dimensions and propose a multidimensional evaluation framework. The new evaluation dimensions include: 1) history length sensitivity, 2) candidate position bias, 3) generation-involved performance, and 4) hallucinations. All four dimensions have the potential to impact performance, but are largely unnecessary for consideration in traditional systems. Using this multidimensional evaluation framework, along with traditional aspects, we evaluate the performance of seven LLM-based recommenders, with three prompting strategies, comparing them with six traditional models on both ranking and re-ranking tasks on four datasets. We find that LLMs excel at handling tasks with prior knowledge and shorter input histories in the ranking setting, and perform better in the re-ranking setting, beating traditional models across multiple dimensions. However, LLMs exhibit substantial candidate position bias issues, and some models hallucinate non-existent items much more often than others. We intend our evaluation framework and observations to benefit future research on the use of LLMs as recommenders. The code and data are available at https://github.com/JiangDeccc/EvaLLMasRecommender.
- Abstract(参考訳): LLM(Large Language Models)の急速な発展に伴い、近年の研究では、個別のユーザに対してパーソナライズされた情報サービスを提供するためのレコメンデーションとしてLLMが採用されている。
LLMベースのレコメンデーションモデルの精度を改善する努力にもかかわらず、実用性を超えたディメンションには比較的注意が払われていない。
さらに、LLMベースのレコメンデーションモデルには独自の評価面があり、ほとんど無視されている。
このギャップを埋めるために、我々は4つの新しい評価次元を探求し、多次元評価フレームワークを提案する。
新しい評価基準には以下のものがある。
1)履歴長感度。
2)候補位置バイアス
3)世代別パフォーマンス、及び
4)幻覚。
4つの次元はいずれもパフォーマンスに影響を与える可能性があるが、従来のシステムでは考慮する必要はほとんどない。
この多次元評価フレームワークを従来の側面とともに、7つのLCMベースのレコメンデータのパフォーマンスを3つのプロンプト戦略で評価し、4つのデータセット上のタスクのランク付けと再ランク付けの両方に関する6つの従来のモデルと比較した。
LLMは、先行知識によるタスク処理と、ランキング設定における入力履歴の短縮に優れ、複数次元にわたる従来のモデルに勝って、再ランク設定においてより優れた性能を発揮する。
しかし、LSMは実質的な位置バイアスの問題を示しており、いくつかのモデルは、他のモデルよりもはるかに頻繁に、既存のアイテムを幻覚させる。
我々は,LLMをレコメンデーションとして活用する上で,今後の研究に役立てるために,評価の枠組みと観察を行う。
コードとデータはhttps://github.com/JiangDeccc/EvaLLMasRecommenderで公開されている。
関連論文リスト
- HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling [21.495443162191332]
大規模言語モデル(LLM)は様々な分野で顕著な成功を収めており、いくつかの研究がレコメンデーションシステムにおいてその可能性を探求している。
逐次レコメンデーションシステムを強化するために,新しい階層型大規模言語モデル (HLLM) アーキテクチャを提案する。
HLLMは,項目特徴抽出とユーザ関心モデリングの両方に 7B パラメータを利用する構成で,優れたスケーラビリティを実現している。
論文 参考訳(メタデータ) (2024-09-19T13:03:07Z) - Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z) - PALR: Personalization Aware LLMs for Recommendation [7.407353565043918]
PALRは、ユーザ履歴の振る舞い(クリック、購入、評価など)と大きな言語モデル(LLM)を組み合わせることで、ユーザの好むアイテムを生成することを目的としている。
我々のソリューションは、様々なシーケンシャルなレコメンデーションタスクにおいて最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-12T17:21:33Z) - Do LLMs Understand User Preferences? Evaluating LLMs On User Rating
Prediction [15.793007223588672]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法で新しいタスクに一般化する際、例外的な機能を示した。
我々は,2億5000万から540Bのパラメータを多種多様なサイズで検討し,その性能をゼロショット,少数ショット,微調整のシナリオで評価した。
論文 参考訳(メタデータ) (2023-05-10T21:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。