論文の概要: A Universal Framework for Offline Serendipity Evaluation in Recommender Systems via Large Language Models
- arxiv url: http://arxiv.org/abs/2508.17571v1
- Date: Mon, 25 Aug 2025 00:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.588842
- Title: A Universal Framework for Offline Serendipity Evaluation in Recommender Systems via Large Language Models
- Title(参考訳): 大規模言語モデルによるレコメンダシステムのオフラインセレンディピティ評価のためのユニバーサルフレームワーク
- Authors: Yu Tokutake, Kazushi Okamoto, Kei Harada, Atsushi Shibata, Koki Karube,
- Abstract要約: 推薦システム(RS)のセレンディピティーは、予期せぬ有用なアイテムを提示することによってユーザの満足度を高める概念として注目されている。
既存のオフラインメトリクスは、しばしば曖昧な定義に依存するか、特定のデータセットやRSに合わせて調整されるため、一般化性が制限される。
本研究では,大規模言語モデル(LLM)を多種多様な知識と推論能力に活かした評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.6524460254566904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Serendipity in recommender systems (RSs) has attracted increasing attention as a concept that enhances user satisfaction by presenting unexpected and useful items. However, evaluating serendipitous performance remains challenging because its ground truth is generally unobservable. The existing offline metrics often depend on ambiguous definitions or are tailored to specific datasets and RSs, thereby limiting their generalizability. To address this issue, we propose a universally applicable evaluation framework that leverages large language models (LLMs) known for their extensive knowledge and reasoning capabilities, as evaluators. First, to improve the evaluation performance of the proposed framework, we assessed the serendipity prediction accuracy of LLMs using four different prompt strategies on a dataset containing user-annotated serendipitous ground truth and found that the chain-of-thought prompt achieved the highest accuracy. Next, we re-evaluated the serendipitous performance of both serendipity-oriented and general RSs using the proposed framework on three commonly used real-world datasets, without the ground truth. The results indicated that there was no serendipity-oriented RS that consistently outperformed across all datasets, and even a general RS sometimes achieved higher performance than the serendipity-oriented RS.
- Abstract(参考訳): 推薦システム(RS)のセレンディピティーは、予期せぬ有用なアイテムを提示することによってユーザの満足度を高める概念として注目されている。
しかし、その根底的な真理は一般に観察不可能であるため、セレンディピティーなパフォーマンスの評価は難しいままである。
既存のオフラインメトリクスは、しばしば曖昧な定義に依存するか、特定のデータセットやRSに合わせて調整されるため、一般化性が制限される。
この問題に対処するために,大規模な言語モデル(LLM)を多種多様な知識と推論能力で活用する,汎用的な評価フレームワークを提案する。
まず,提案手法の評価性能を向上させるために,提案手法の4つのプロンプト戦略を用いて,提案手法のセレンディピティー予測精度を評価した。
次に,提案する3つの実世界のデータセットのフレームワークを用いて,セレンディピティー指向と一般のRSのセレンディピティー性能を再評価した。
その結果,セレンディピティー指向のRSはすべてのデータセットで一貫して優れており,一般のRSでもセレンディピティー指向のRSよりも高い性能を示した。
関連論文リスト
- Personalized Recommendations via Active Utility-based Pairwise Sampling [1.704905100460915]
単純かつ直感的なペアワイズ比較から好みを学習するユーティリティベースのフレームワークを提案する。
本研究の中心的な貢献は,嗜好評価のための新規なユーティリティベースアクティブサンプリング戦略である。
論文 参考訳(メタデータ) (2025-08-12T19:09:33Z) - Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - Large Language Model Empowered Recommendation Meets All-domain Continual Pre-Training [60.38082979765664]
CPRecは、レコメンデーションのための全ドメイン連続事前トレーニングフレームワークである。
LLMを連続的な事前学習パラダイムを通じて、普遍的なユーザ行動と整合させる。
2つの異なるプラットフォームから5つの実世界のデータセットを実験する。
論文 参考訳(メタデータ) (2025-04-11T20:01:25Z) - Bursting Filter Bubble: Enhancing Serendipity Recommendations with Aligned Large Language Models [42.13005951072714]
大規模言語モデル (LLM) は、その広範な世界知識と推論能力により、セレンディピティー予測の可能性を示している。
本稿では,認知プロファイル生成,セレンGPTアライメント,ニアライン適応の3段階からなるフレームワークSERALを提案する。
オンライン実験によると、SERALはセレンディピティクスアイテムの露出率(PVR)、クリック、トランザクションを5.7%、29.56%、27.6%改善し、全体的な収益に大きな影響を与えずにユーザーエクスペリエンスを向上させる。
論文 参考訳(メタデータ) (2025-02-19T08:47:42Z) - The Role of Fake Users in Sequential Recommender Systems [0.0]
本研究では,ランダムなインタラクション,人気アイテムや不人気アイテムのフォロー,ひとつのジャンルに着目した偽ユーザの存在が,シーケンスレコメンダシステム(SRS)の性能に与える影響を評価する。
NDCGのような従来の指標は比較的安定しているが、偽ユーザの存在はRSSメトリクスを著しく劣化させ、多くの場合、ほぼゼロの値に低下させる。
論文 参考訳(メタデータ) (2024-10-13T17:44:04Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。