論文の概要: SRBench: A Comprehensive Benchmark for Sequential Recommendation with Large Language Models
- arxiv url: http://arxiv.org/abs/2604.09553v1
- Date: Sat, 31 Jan 2026 04:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.487762
- Title: SRBench: A Comprehensive Benchmark for Sequential Recommendation with Large Language Models
- Title(参考訳): SRBench: 大規模言語モデルを用いたシーケンスレコメンデーションのための総合ベンチマーク
- Authors: Jianhong Li, Zeheng Qian, Wangze Ni, Haoyang Li, Hongwei Yao, Yang Bai, Kui Ren,
- Abstract要約: SRBenchは3つのコア設計を持つ総合的なSRベンチマークである。
正確性、公正性、安定性、効率性をカバーし、実際的な要求に沿う。
SRBenchを使って13の主流モデルを評価し、いくつかの意味のある洞察を発見しました。
- 参考スコア(独自算出の注目度): 23.784121184487827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM development has aroused great interest in Sequential Recommendation (SR) applications. However, comprehensive evaluation of SR models remains lacking due to the limitations of the existing benchmarks: 1) an overemphasis on accuracy, ignoring other real-world demands (e.g., fairness); 2) existing datasets fail to unleash LLMs' potential, leading to unfair comparison between Neural-Network-based SR (NN-SR) models and LLM-based SR (LLM-SR) models; and 3) no reliable mechanism for extracting task-specific answers from unstructured LLM outputs. To address these limitations, we propose SRBench, a comprehensive SR benchmark with three core designs: 1) a multi-dimensional framework covering accuracy, fairness, stability and efficiency, aligned with practical demands; 2) a unified input paradigm via prompt engineering to boost LLM-SR performance and enable fair comparisons between models; 3) a novel prompt-extractor-coupled extraction mechanism, which captures answers from LLM outputs through prompt-enforced output formatting and a numeric-oriented extractor. We have used SRBench to evaluate 13 mainstream models and discovered some meaningful insights (e.g., LLM-SR models overfocus on item popularity but lack deep understanding of item quality). Concisely, SRBench enables fair and comprehensive assessments for SR models, underpinning future research and practical application.
- Abstract(参考訳): LLM開発はSequential Recommendation (SR) アプリケーションへの大きな関心を喚起している。
しかし、既存のベンチマークの限界により、SRモデルの包括的な評価は依然として欠落している。
1) 他の現実世界の要求(例えば、公正性)を無視して、正確性に対する過度な強調
2)既存のデータセットはLLMの可能性を解き放つことができず、NN-SRモデルとLLM-SRモデルとの不公平な比較に繋がる。
3)未構造化LCM出力からタスク固有の回答を抽出する信頼性メカニズムは存在しない。
これらの制約に対処するために,3つのコア設計を持つ包括的なSRベンチマークSRBenchを提案する。
1) 精度,公正性,安定性及び効率性を網羅した多次元の枠組み
2) LLM-SRの性能を向上し、モデル間の公正な比較を可能にするため、プロンプトエンジニアリングによる統一された入力パラダイム。
3) プロンプト強化出力フォーマッティングと数値指向抽出器により, LLM出力から回答を抽出する新規なプロンプト抽出結合抽出機構を提案する。
SRBenchを用いて13の主流モデルを評価し,いくつかの有意義な洞察を得た(例:LSM-SRモデルはアイテムの人気を過度に重視するが,アイテムの品質を深く理解していない)。
簡潔に言えば、SRBenchはSRモデルに対する公平かつ包括的な評価を可能にし、将来の研究と実用化を支えている。
関連論文リスト
- Run, Ruminate, and Regulate: A Dual-process Thinking System for Vision-and-Language Navigation [52.11339614452127]
VLN(Vision-and-Language Navigation)は、エージェントが人間の指示に従って複雑な3D環境を動的に探索する必要がある。
近年の研究では、一般的な知識と一般的な推論能力から、大きな言語モデル(LLM)をVLNに活用する可能性を強調している。
本稿では、LLMの一般化機能とVLN固有の専門知識をゼロショットで統合する、R3と呼ばれる新しいデュアルプロセス思考フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-18T04:32:00Z) - SSR: Socratic Self-Refine for Large Language Model Reasoning [78.62319252287938]
Socratic Self-Refine (SSR)は、大規模言語モデル(LLM)のきめ細かい評価と精度向上のための新しいフレームワークである。
提案したSSRはモデル応答を検証可能な(サブクエスト,サブサブアンサー)ペアに分解し,ステップレベルの信頼度推定を可能にする。
5つの推論ベンチマークと3つのLCMによる実証的な結果から、SSRは一貫して最先端の反復的自己修正ベースラインを上回っていることが分かる。
論文 参考訳(メタデータ) (2025-11-13T18:47:07Z) - SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder [54.31950189922548]
リワードモデル(Reward Model、RM)は、人間の嗜好評価と誘導モデルアライメントのためのプロキシである。
Sparse Autoencoder (SAE) を利用してモデル表現に符号化された嗜好関連情報を抽出するSparseRMを提案する。
SparseRMは、トレーニング可能なパラメータの1%未満を使用しながら、ほとんどのメインストリームのRMよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-11T06:51:56Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - DELRec: Distilling Sequential Pattern to Enhance LLMs-based Sequential Recommendation [7.914816884185941]
逐次リコメンデーション(SR)タスクは,ユーザの行動シーケンスを学習し,過去のインタラクションと好みの変化を関連付けることによって,ユーザの次のインタラクションを予測することを目的としている。
従来のSRモデルは、外部ソースからアイテムタイトルに埋め込まれたより広いコンテキストや意味情報を無視して、トレーニングデータ内のシーケンシャルなパターンをキャプチャすることだけに重点を置いていることが多い。
大規模言語モデル(LLM)は、その高度な理解能力と強力な一般化能力により、最近SRタスクにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2024-06-17T02:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。