論文の概要: Exploring the Potential of LLMs for Serendipity Evaluation in Recommender Systems
- arxiv url: http://arxiv.org/abs/2507.17290v1
- Date: Wed, 23 Jul 2025 07:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.905901
- Title: Exploring the Potential of LLMs for Serendipity Evaluation in Recommender Systems
- Title(参考訳): レコメンダシステムにおけるセレンディピティー評価のためのLCMの可能性を探る
- Authors: Li Kang, Yuhan Zhao, Li Chen,
- Abstract要約: 大規模言語モデル(LLM)は、様々な人間のアノテーションタスクで評価手法に革命をもたらしている。
電子商取引および映画分野における実際のユーザ研究から得られた2つのデータセットのメタ評価を行う。
以上の結果から,最も単純なゼロショットLLMであっても,従来の測定値と同等あるいは超える性能が得られることが示唆された。
- 参考スコア(独自算出の注目度): 10.227007419503297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Serendipity plays a pivotal role in enhancing user satisfaction within recommender systems, yet its evaluation poses significant challenges due to its inherently subjective nature and conceptual ambiguity. Current algorithmic approaches predominantly rely on proxy metrics for indirect assessment, often failing to align with real user perceptions, thus creating a gap. With large language models (LLMs) increasingly revolutionizing evaluation methodologies across various human annotation tasks, we are inspired to explore a core research proposition: Can LLMs effectively simulate human users for serendipity evaluation? To address this question, we conduct a meta-evaluation on two datasets derived from real user studies in the e-commerce and movie domains, focusing on three key aspects: the accuracy of LLMs compared to conventional proxy metrics, the influence of auxiliary data on LLM comprehension, and the efficacy of recently popular multi-LLM techniques. Our findings indicate that even the simplest zero-shot LLMs achieve parity with, or surpass, the performance of conventional metrics. Furthermore, multi-LLM techniques and the incorporation of auxiliary data further enhance alignment with human perspectives. Based on our findings, the optimal evaluation by LLMs yields a Pearson correlation coefficient of 21.5\% when compared to the results of the user study. This research implies that LLMs may serve as potentially accurate and cost-effective evaluators, introducing a new paradigm for serendipity evaluation in recommender systems.
- Abstract(参考訳): セレンディピティーはレコメンデーションシステムにおけるユーザの満足度を高める上で重要な役割を担っているが、その評価は本質的に主観的な性質と概念的あいまいさのために大きな課題を生んでいる。
現在のアルゴリズムアプローチは、主に間接的な評価のためのプロキシメトリクスに依存しており、多くの場合、実際のユーザの認識と一致しないため、ギャップが生じる。
大きな言語モデル(LLMs)は、さまざまな人間のアノテーションタスクで評価方法論に革命をもたらしています。
この問題に対処するため,電子商取引および映画分野における実ユーザ調査から得られた2つのデータセットをメタ評価し,従来のプロキシ指標と比較したLCMの精度,LCM理解に対する補助データの影響,最近普及しているマルチLLM手法の有効性の3つの重要な側面に着目した。
以上の結果から,最も単純なゼロショットLLMであっても,従来の測定値と同等あるいは超える性能が得られることが示唆された。
さらに、マルチLLM技術と補助データの導入により、人間の視点とのアライメントをさらに強化する。
この結果から, LLMによる最適評価は, ユーザ調査の結果と比較してピアソン相関係数が 21.5 % であることがわかった。
本研究は,LLMが精度が高く費用効果の高い評価器として機能し,レコメンデータシステムにセレンディピティー評価のための新たなパラダイムを導入することを示唆している。
関連論文リスト
- DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。
本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。
公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-05-22T15:49:38Z) - PanguIR Technical Report for NTCIR-18 AEOLLM Task [12.061652026366591]
大規模言語モデル(LLM)はますます重要で、評価が難しい。
手作業の評価は包括的ではあるが、コストが高くリソース集約的であることが多い。
自動評価はスケーラビリティを提供するが、評価基準の制限によって制約される。
論文 参考訳(メタデータ) (2025-03-04T07:40:02Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。