論文の概要: RecSys Arena: Pair-wise Recommender System Evaluation with Large Language Models
- arxiv url: http://arxiv.org/abs/2412.11068v1
- Date: Sun, 15 Dec 2024 05:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:59:00.298836
- Title: RecSys Arena: Pair-wise Recommender System Evaluation with Large Language Models
- Title(参考訳): RecSys Arena: 大規模言語モデルを用いたペアワイズレコメンダシステム評価
- Authors: Zhuo Wu, Qinglin Jia, Chuhan Wu, Zhaocheng Du, Shuai Wang, Zan Wang, Zhenhua Dong,
- Abstract要約: 提案するRecSys Arenaでは,2種類のレコメンデーションシステムによるレコメンデーション結果がLLM審査員によって評価され,きめ細かい評価フィードバックが得られる。
我々は多くの異なるLCMが標準オフラインメトリクスと高度に一致した一般的な評価結果を提供することを示した。
AUCやnDCGと同等の性能の異なるアルゴリズムを区別できる。
- 参考スコア(独自算出の注目度): 40.74293642666989
- License:
- Abstract: Evaluating the quality of recommender systems is critical for algorithm design and optimization. Most evaluation methods are computed based on offline metrics for quick algorithm evolution, since online experiments are usually risky and time-consuming. However, offline evaluation usually cannot fully reflect users' preference for the outcome of different recommendation algorithms, and the results may not be consistent with online A/B test. Moreover, many offline metrics such as AUC do not offer sufficient information for comparing the subtle differences between two competitive recommender systems in different aspects, which may lead to substantial performance differences in long-term online serving. Fortunately, due to the strong commonsense knowledge and role-play capability of large language models (LLMs), it is possible to obtain simulated user feedback on offline recommendation results. Motivated by the idea of LLM Chatbot Arena, in this paper we present the idea of RecSys Arena, where the recommendation results given by two different recommender systems in each session are evaluated by an LLM judger to obtain fine-grained evaluation feedback. More specifically, for each sample we use LLM to generate a user profile description based on user behavior history or off-the-shelf profile features, which is used to guide LLM to play the role of this user and evaluate the relative preference for two recommendation results generated by different models. Through extensive experiments on two recommendation datasets in different scenarios, we demonstrate that many different LLMs not only provide general evaluation results that are highly consistent with canonical offline metrics, but also provide rich insight in many subjective aspects. Moreover, it can better distinguish different algorithms with comparable performance in terms of AUC and nDCG.
- Abstract(参考訳): アルゴリズムの設計と最適化には,レコメンダシステムの品質評価が不可欠である。
オンライン実験は通常、危険で時間を要するため、ほとんどの評価手法は、アルゴリズムの迅速な進化のためのオフラインメトリクスに基づいて計算される。
しかし、オフライン評価は通常、異なるレコメンデーションアルゴリズムの結果に対するユーザの好みを完全に反映することはできず、その結果はオンラインA/Bテストと一致しないかもしれない。
さらに、AUCのような多くのオフラインメトリクスは、2つの競合するレコメンデーターシステム間の微妙な差異を比較するのに十分な情報を提供していない。
幸いなことに、大規模言語モデル(LLM)の強い常識知識とロールプレイ能力により、オフラインレコメンデーション結果のシミュレーションユーザフィードバックを得ることができる。
本稿では,LLM Chatbot Arenaのアイデアに触発されたRecSys Arenaのアイデアについて述べる。
より具体的には,各サンプルに対して,ユーザ行動履歴に基づいたユーザプロファイル記述を生成するためにLLMを使用して,ユーザの役割を担いながら,異なるモデルによって生成された2つの推奨結果に対する相対的嗜好を評価する。
異なるシナリオにおける2つのレコメンデーションデータセットに関する広範な実験を通して、多くの異なるLLMが、標準オフラインメトリクスと高度に整合した一般的な評価結果を提供するだけでなく、多くの主観的側面において豊富な洞察を提供することを示した。
さらに、AUCやnDCGと同等の性能の異なるアルゴリズムを区別することも可能である。
関連論文リスト
- Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models [0.29687381456164]
VARCO Arenaは、大規模言語モデルのための新しく、費用対効果が高く、堅牢なベンチマーク手法である。
VARCO Arenaは信頼性の高いLCMランキングを生成するだけでなく、質的評価のためのスケーラブルで適応可能なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-02T15:23:28Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Active Evaluation Acquisition for Efficient LLM Benchmarking [18.85604491151409]
学習ポリシを用いて,各ベンチマークからサンプルのサブセットを選択することにより,評価効率を向上させる戦略を検討する。
提案手法は,テスト例間の依存関係をモデル化し,残りの例に対する評価結果の正確な予測を可能にする。
実験の結果,提案手法は必要な評価プロンプトの数を大幅に削減することが示された。
論文 参考訳(メタデータ) (2024-10-08T12:08:46Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons [10.94304714004328]
本稿では,効率的な比較評価のためのPoE(Product of Expert)フレームワークを紹介する。
個人比較は、ペアのスコア差に関する情報を提供する専門家と見なされる。
PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補セットに関して最大化できる表現を生成する。
論文 参考訳(メタデータ) (2024-05-09T16:45:27Z) - Efficient and Responsible Adaptation of Large Language Models for Robust Top-k Recommendations [11.004673022505566]
何百万というユーザの長いクエリは、大規模言語モデルのパフォーマンスを低下させ、推奨することができる。
本稿では,大規模言語モデルと従来のレコメンデーションシステムの両方の機能を利用するハイブリッドタスク割り当てフレームワークを提案する。
実世界の3つのデータセットによる結果から,弱い利用者の減少と,サブ人口に対するRSのロバスト性の向上が示唆された。
論文 参考訳(メタデータ) (2024-05-01T19:11:47Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。