論文の概要: Do LLM-judges Align with Human Relevance in Cranfield-style Recommender Evaluation?
- arxiv url: http://arxiv.org/abs/2511.23312v1
- Date: Fri, 28 Nov 2025 16:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.975872
- Title: Do LLM-judges Align with Human Relevance in Cranfield-style Recommender Evaluation?
- Title(参考訳): クランフィールド型レコメンダ評価におけるLLM-judgesと人間関係は一致しているか?
- Authors: Gustavo Penha, Aleksandr V. Petrov, Claudia Hauff, Enrico Palumbo, Ali Vardasbi, Edoardo D'Amico, Francesco Fabbri, Alice Wang, Praveen Chandar, Henrik Lindstrom, Hugues Bouchard, Mounia Lalmas,
- Abstract要約: 本稿では,Large Language Models (LLM) がスケーラビリティ問題に対処するために,信頼性の高い自動判断器として機能するかどうかを検討する。
ML-32M-ext Cranfieldスタイルの映画レコメンデーションコレクションを用いて,既存の評価手法の限界について検討する。
よりリッチな項目メタデータとより長いユーザ履歴を組み合わせることでアライメントが向上し,LLM-judgeは人間によるランキングと高い合意を得ることがわかった。
- 参考スコア(独自算出の注目度): 40.49875426230813
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating recommender systems remains a long-standing challenge, as offline methods based on historical user interactions and train-test splits often yield unstable and inconsistent results due to exposure bias, popularity bias, sampled evaluations, and missing-not-at-random patterns. In contrast, textual document retrieval benefits from robust, standardized evaluation via Cranfield-style test collections, which combine pooled relevance judgments with controlled setups. While recent work shows that adapting this methodology to recommender systems is feasible, constructing such collections remains costly due to the need for manual relevance judgments, thus limiting scalability. This paper investigates whether Large Language Models (LLMs) can serve as reliable automatic judges to address these scalability challenges. Using the ML-32M-ext Cranfield-style movie recommendation collection, we first examine the limitations of existing evaluation methodologies. Then we explore the alignment and the recommender systems ranking agreement between the LLM-judge and human provided relevance labels. We find that incorporating richer item metadata and longer user histories improves alignment, and that LLM-judge yields high agreement with human-based rankings (Kendall's tau = 0.87). Finally, an industrial case study in the podcast recommendation domain demonstrates the practical value of LLM-judge for model selection. Overall, our results show that LLM-judge is a viable and scalable approach for evaluating recommender systems.
- Abstract(参考訳): 過去のユーザインタラクションとトレインテストの分割に基づくオフラインメソッドは、露出バイアス、人気バイアス、サンプル評価、非ランダムパターンの欠如によって不安定で一貫性のない結果をもたらすことが多いため、リコメンダシステムの評価は長年の課題である。
対照的に、テキスト文書検索はCranfieldスタイルのテストコレクションによる堅牢で標準化された評価の恩恵を受ける。
最近の研究は、この方法論をレコメンデーションシステムに適用することは可能であることを示しているが、手動の関連性判断を必要とするため、そのようなコレクションの構築はコストがかかるままであり、スケーラビリティが制限される。
本稿では,Large Language Models (LLM) が,これらの拡張性に対処するための信頼性の高い自動判断器として機能するかどうかを検討する。
ML-32M-ext Cranfieldスタイルの映画レコメンデーションコレクションを用いて,既存の評価手法の限界について検討する。
次に、LLM-judgeと人間提供関連ラベルのアライメントとレコメンダシステムランキングについて検討する。
よりリッチな項目メタデータとより長いユーザ履歴を組み合わせることでアライメントが向上し,LLM-judgeは人間によるランキング(Kendall's tau = 0.87)と高い合意を得ることがわかった。
最後に、ポッドキャストレコメンデーションドメインにおける産業ケーススタディは、モデル選択におけるLLM-judgeの実用的価値を示す。
以上の結果から,LLM-judgeはレコメンデータシステムを評価するための,実用的でスケーラブルなアプローチであることが示唆された。
関連論文リスト
- Topic-Specific Classifiers are Better Relevance Judges than Prompted LLMs [34.14678608130442]
未判断の文書問題は、情報検索におけるテストコレクションの再利用可能性にとって重要な障害である。
個別のLoRA重み適応でMonoT5を微調整することにより、トピック固有の関連分類器を訓練する。
トピックごとの最初の128の判断は、モデルの互換性を改善するのに十分である。
論文 参考訳(メタデータ) (2025-10-06T09:38:13Z) - Reverse Engineering Human Preferences with Reinforcement Learning [15.70441204657966]
大規模言語モデル(LLM)は、人間の嗜好を予測するために訓練された他のLLMによって日常的に評価される。
これまでの研究では、候補LLMが生成した回答をポストホックで編集して、審査員LLMが割り当てたスコアを最大化できることが示されている。
我々は、異なるアプローチを採用し、判定LLMによって提供される信号を、逆向きにモデルをチューニングする報酬として利用する。
論文 参考訳(メタデータ) (2025-05-21T17:48:16Z) - Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。
既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。
本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T04:50:43Z) - JudgeBlender: Ensembling Judgments for Automatic Relevance Assessment [28.4353755578306]
大規模言語モデル(LLM)は、検索タスクの関連ラベルを生成することを約束している。
我々は,より小型のオープンソースモデルを用いて妥当性判断を行うフレームワークであるJiceBlenderを紹介した。
論文 参考訳(メタデータ) (2024-12-17T19:04:15Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System [9.470545149911072]
本稿では,LCMを利用したリコメンデータシステムにおいて,消費者の公正性をベンチマークするための規範的フレームワークを提案する。
このギャップは公平性に関する任意の結論につながる可能性があると我々は主張する。
MovieLensデータセットの消費者の公正性に関する実験は、年齢ベースの推奨において公平さの偏りを明らかにしている。
論文 参考訳(メタデータ) (2024-05-03T16:25:27Z) - Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文 参考訳(メタデータ) (2023-05-12T16:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。