Fugu-MT 論文翻訳(概要): RecRankerEval: A Flexible and Extensible Framework for Top-k LLM-based Recommendation

論文の概要: RecRankerEval: A Flexible and Extensible Framework for Top-k LLM-based Recommendation

arxiv url: http://arxiv.org/abs/2507.05880v1
Date: Tue, 08 Jul 2025 11:04:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:37.93688
Title: RecRankerEval: A Flexible and Extensible Framework for Top-k LLM-based Recommendation
Title（参考訳）: RecRankerEval: トップk LLMベースのレコメンデーションのためのフレキシブルで拡張可能なフレームワーク
Authors: Zeyuan Meng, Zixuan Yi, Iadh Ounis,
Abstract要約: RecRankerと呼ばれる最近のLarge Language Model(LLM)ベースのレコメンデーションモデルは、トップkレコメンデーションタスクにおいて優れたパフォーマンスを示している。 RecRankerの様々なコンポーネントの影響と役割について検討する。
参考スコア（独自算出の注目度）: 8.64897967325355
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A recent Large language model (LLM)-based recommendation model, called RecRanker, has demonstrated a superior performance in the top-k recommendation task compared to other models. In particular, RecRanker samples users via clustering, generates an initial ranking list using an initial recommendation model, and fine-tunes an LLM through hybrid instruction tuning to infer user preferences. However, the contribution of each core component remains underexplored. In this work, we inspect the reproducibility of RecRanker, and study the impact and role of its various components. We begin by reproducing the RecRanker pipeline through the implementation of all its key components. Our reproduction shows that the pairwise and listwise methods achieve a performance comparable to that reported in the original paper. For the pointwise method, while we are also able to reproduce the original paper's results, further analysis shows that the performance is abnormally high due to data leakage from the inclusion of ground-truth information in the prompts. To enable a fair and comprehensive evaluation of LLM-based top-k recommendations, we propose RecRankerEval, an extensible framework that covers five key dimensions: user sampling strategy, initial recommendation model, LLM backbone, dataset selection, and instruction tuning method. Using the RecRankerEval framework, we show that the original results of RecRanker can be reproduced on the ML-100K and ML-1M datasets, as well as the additional Amazon-Music dataset, but not on BookCrossing due to the lack of timestamp information in the original RecRanker paper. Furthermore, we demonstrate that RecRanker's performance can be improved by employing alternative user sampling methods, stronger initial recommenders, and more capable LLMs.
Abstract（参考訳）: RecRankerと呼ばれる最近のLarge Language Model(LLM)ベースのレコメンデーションモデルは、他のモデルと比べてトップkレコメンデーションタスクにおいて優れたパフォーマンスを示している。特に、RecRankerはクラスタリングを通じてユーザをサンプリングし、初期レコメンデーションモデルを使用して初期ランキングリストを生成し、ユーザ好みを推測するためのハイブリッド命令チューニングを通じてLLMを微調整する。しかしながら、各コアコンポーネントのコントリビューションについては、まだ検討されていない。本研究では,RecRankerの再現性について検討し,その影響と役割について検討する。まずは、RecRankerパイプラインをすべての主要なコンポーネントの実装で再現することから始めます。我々の再現は、ペアワイズ法とリストワイズ法が、元の論文で報告された手法に匹敵する性能を達成することを示す。ポイントワイズ手法では,原論文の結果を再現することも可能であるが,さらに解析により,原文情報がプロンプトに含まれていることから,データ漏洩により異常に高い性能を示した。ユーザサンプリング戦略,初期レコメンデーションモデル,LLMバックボーン,データセット選択,インストラクションチューニングの5つの重要な側面をカバーする拡張可能なフレームワークであるRecRankerEvalを提案する。 RecRankerEvalフレームワークを使用することで、RecRankerのオリジナルの結果は、ML-100KおよびML-1Mデータセットと追加のAmazon-Musicデータセットで再現可能であるが、オリジナルのRecRanker論文のタイムスタンプ情報が欠如しているため、BookCrossingでは再生できないことを示す。さらに、RecRankerの性能は、代替のユーザサンプリング手法、より強力な初期レコメンデータ、より有能なLLMを用いることで改善できることを示す。

関連論文リスト

Evaluating Position Bias in Large Language Model Recommendations [3.430780143519032]
大規模言語モデル(LLM)は、リコメンデーションタスクのための汎用ツールとして、ますます研究されている。 LLMをベースとした推薦モデルは位置バイアスに悩まされ、その場合、プロンプト内の候補項目の順序がLLMの推薦に不均等に影響を及ぼす可能性がある。本稿では,LLMレコメンデーションモデルにおける位置バイアスを軽減するための新たなプロンプト戦略であるRightingをIterative Selection経由で導入する。
論文参考訳（メタデータ） (2025-08-04T03:30:26Z)
DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2025-05-22T15:49:38Z)
Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。 TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文参考訳（メタデータ） (2025-03-08T03:14:26Z)
FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文参考訳（メタデータ） (2024-06-21T21:27:50Z)
CherryRec: Enhancing News Recommendation Quality via LLM-driven Framework [4.4206696279087]
我々は,textitCherryRecという名前のLarge Language Models (LLMs) を用いたニュースレコメンデーションフレームワークを提案する。 CherryRecは、レコメンデーションプロセスを加速しながら、レコメンデーションの品質を保証する。提案手法の有効性を,ベンチマークデータセット上での最先端のベースライン手法と比較することにより検証する。
論文参考訳（メタデータ） (2024-06-18T03:33:38Z)
Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
LlamaRec: Two-Stage Recommendation using Large Language Models for Ranking [10.671747198171136]
ランキングベースレコメンデーション(LlamaRec)のための大規模言語モデルを用いた2段階フレームワークを提案する。特に,ユーザインタラクション履歴に基づいて候補を検索するために,小規模なシーケンシャルレコメンデータを用いる。 LlamaRecは、推奨パフォーマンスと効率の両方において、データセットの優れたパフォーマンスを一貫して達成している。
論文参考訳（メタデータ） (2023-10-25T06:23:48Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Element-aware Summarization with Large Language Models: Expert-aligned Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。 CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文参考訳（メタデータ） (2023-05-22T18:54:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。