論文の概要: What Are We Optimizing For? A Human-centric Evaluation Of Deep
Learning-based Recommender Systems
- arxiv url: http://arxiv.org/abs/2401.11632v1
- Date: Sun, 21 Jan 2024 23:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:33:24.614001
- Title: What Are We Optimizing For? A Human-centric Evaluation Of Deep
Learning-based Recommender Systems
- Title(参考訳): 最適化とは何か?
深層学習に基づく推薦システムの人間中心評価
- Authors: Ruixuan Sun, Avinash Akella, Xinyi Wu, Ruoyan Kong, Joseph A. Konstan
- Abstract要約: レコメンデータシステム(RecSys)のディープラーニングモデルは、ユーザの好みを予測する際、顕著な精度で認識されている。
我々は,推薦の質を評価するために7つの多様な指標を組み込んだ,堅牢な人間中心評価フレームワークを開発した。
評価データセットは、オフラインベンチマークデータと、実際の445ユーザから収集した個人化されたオンラインレコメンデーションフィードバックの両方から構成される。
- 参考スコア(独自算出の注目度): 13.792759409405152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based (DL) models in recommender systems (RecSys) have gained
significant recognition for their remarkable accuracy in predicting user
preferences. However, their performance often lacks a comprehensive evaluation
from a human-centric perspective, which encompasses various dimensions beyond
simple interest matching. In this work, we have developed a robust
human-centric evaluation framework that incorporates seven diverse metrics to
assess the quality of recommendations generated by five recent open-sourced DL
models. Our evaluation datasets consist of both offline benchmark data and
personalized online recommendation feedback collected from 445 real users. We
find that (1) different DL models have different pros and cons in the
multi-dimensional metrics that we test with; (2) users generally want a
combination of accuracy with at least one another human values in the
recommendation; (3) the degree of combination of different values needs to be
carefully experimented to user preferred level.
- Abstract(参考訳): 推薦システム(RecSys)における深層学習ベース(DL)モデルは,ユーザの嗜好を予測する上で顕著な精度で認識されている。
しかしながら、それらの性能は、単純な関心マッチング以上の様々な次元を含む人間中心の観点からの包括的な評価を欠いていることが多い。
本研究では,最近の5つのオープンソースDLモデルによって生成されるレコメンデーションの品質を評価するために,7つのメトリクスを組み込んだ頑健な人間中心評価フレームワークを開発した。
評価データセットは、オフラインベンチマークデータと、実際の445ユーザから収集した個人化されたオンラインレコメンデーションフィードバックの両方から構成される。
1) 異なるdlモデルは多次元の指標において異なる長所と短所を持っていること, (2) ユーザは推奨において少なくとも1つの人間の値と精度の組み合わせを望んでいること, 3) 異なる値の組み合わせの度合いをユーザの好みのレベルまで慎重に実験する必要があること,の2つを見いだした。
関連論文リスト
- CURE4Rec: A Benchmark for Recommendation Unlearning with Deeper Influence [55.21518669075263]
CURE4Recは、レコメンデーションアンラーニング評価のための最初の包括的なベンチマークである。
さまざまな影響レベルのデータに対する推薦公正性と堅牢性に対するアンラーニングの影響について検討する。
論文 参考訳(メタデータ) (2024-08-26T16:21:50Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Large Language Models as Conversational Movie Recommenders: A User Study [3.3636849604467]
大規模言語モデル(LLM)は、強い推薦性を提供するが、全体的なパーソナライゼーション、多様性、ユーザ信頼は欠如している。
LLMは、あまり知られていない映画やニッチ映画を推薦する能力を高めている。
論文 参考訳(メタデータ) (2024-04-29T20:17:06Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Uncertainty-Aware Explainable Recommendation with Large Language Models [15.229417987212631]
GPT-2のプロンプトとしてユーザおよびアイテム入力のIDベクトルを利用するモデルを開発する。
マルチタスク学習フレームワークには,推薦タスクと説明タスクの両方を最適化するために,共同トレーニング機構が採用されている。
提案手法はYelp, TripAdvisor, Amazon のデータセット上でそれぞれ 1.59 DIV, 0.57 USR, 0.41 FCR を達成する。
論文 参考訳(メタデータ) (2024-01-31T14:06:26Z) - Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文 参考訳(メタデータ) (2023-05-12T16:54:36Z) - Personalizing Intervened Network for Long-tailed Sequential User
Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。
テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。
本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-19T02:50:19Z) - CausPref: Causal Preference Learning for Out-of-Distribution
Recommendation [36.22965012642248]
現在のレコメンデータシステムは、現実的なシナリオにおけるユーザやアイテムの配布シフトに対して、依然として脆弱である。
本稿では,推奨特化DAG学習者を因果選好に基づく推薦フレームワークCausPrefに組み込むことを提案する。
当社のアプローチは、アウト・オブ・ディストリビューション・セッティングのタイプにおいて、ベンチマークモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2022-02-08T16:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。