論文の概要: What Are We Optimizing For? A Human-centric Evaluation of Deep Learning-based Movie Recommenders
- arxiv url: http://arxiv.org/abs/2401.11632v2
- Date: Wed, 1 May 2024 17:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 21:50:58.791466
- Title: What Are We Optimizing For? A Human-centric Evaluation of Deep Learning-based Movie Recommenders
- Title(参考訳): 最適化とは何か? 深層学習に基づく映画レコメンダの人間中心評価
- Authors: Ruixuan Sun, Xinyi Wu, Avinash Akella, Ruoyan Kong, Bart Knijnenburg, Joseph A. Konstan,
- Abstract要約: 映画領域における4つのDL-RecSysモデルの人間中心評価ケーススタディを行う。
DL-RecSysモデルがパーソナライズされたレコメンデーション生成において,445人の実アクティブユーザを対象に調査を行った。
いくつかのDL-RecSysモデルは、新規で予期せぬ項目を推奨し、多様性、信頼性、透明性、正確性、全体的なユーザ満足度が低下している。
- 参考スコア(独自算出の注目度): 12.132920692489911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past decade, deep learning (DL) models have gained prominence for their exceptional accuracy on benchmark datasets in recommender systems (RecSys). However, their evaluation has primarily relied on offline metrics, overlooking direct user perception and experience. To address this gap, we conduct a human-centric evaluation case study of four leading DL-RecSys models in the movie domain. We test how different DL-RecSys models perform in personalized recommendation generation by conducting survey study with 445 real active users. We find some DL-RecSys models to be superior in recommending novel and unexpected items and weaker in diversity, trustworthiness, transparency, accuracy, and overall user satisfaction compared to classic collaborative filtering (CF) methods. To further explain the reasons behind the underperformance, we apply a comprehensive path analysis. We discover that the lack of diversity and too much serendipity from DL models can negatively impact the consequent perceived transparency and personalization of recommendations. Such a path ultimately leads to lower summative user satisfaction. Qualitatively, we confirm with real user quotes that accuracy plus at least one other attribute is necessary to ensure a good user experience, while their demands for transparency and trust can not be neglected. Based on our findings, we discuss future human-centric DL-RecSys design and optimization strategies.
- Abstract(参考訳): 過去10年間で、ディープラーニング(DL)モデルは、レコメンデータシステム(RecSys)のベンチマークデータセットにおいて、例外的な精度で有名になった。
しかし、彼らの評価は主にオフラインのメトリクスに依存しており、直接ユーザーの認識と経験を見落としている。
このギャップに対処するために、映画領域における4つの主要なDL-RecSysモデルの人間中心評価ケーススタディを行う。
DL-RecSysモデルがパーソナライズされたレコメンデーション生成において,445人の実アクティブユーザを対象に調査を行った。
いくつかのDL-RecSysモデルは、従来のコラボレーティブフィルタリング(CF)手法と比較して、新規で予期せぬ項目を推奨し、多様性、信頼性、透明性、正確性、全体的なユーザ満足度が低下している。
アンダーパフォーマンスの背景にある理由をさらに説明するために,包括的パス解析を適用した。
多様性の欠如とDLモデルからの過度なセレンディピティーが、結果として知覚される透明性とレコメンデーションのパーソナライズに悪影響を及ぼすことが判明した。
このようなパスは、究極的にはユーザー満足度を低下させる。
質的に言えば、私たちは、透明性と信頼の要求は無視できないが、優れたユーザエクスペリエンスを保証するためには、正確さと少なくとも1つの他の属性が不可欠である、と、実際のユーザからの引用で確認します。
そこで本研究では,人間中心型DL-RecSysの設計と最適化戦略について論じる。
関連論文リスト
- CURE4Rec: A Benchmark for Recommendation Unlearning with Deeper Influence [55.21518669075263]
CURE4Recは、レコメンデーションアンラーニング評価のための最初の包括的なベンチマークである。
さまざまな影響レベルのデータに対する推薦公正性と堅牢性に対するアンラーニングの影響について検討する。
論文 参考訳(メタデータ) (2024-08-26T16:21:50Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Large Language Models as Conversational Movie Recommenders: A User Study [3.3636849604467]
大規模言語モデル(LLM)は、強い推薦性を提供するが、全体的なパーソナライゼーション、多様性、ユーザ信頼は欠如している。
LLMは、あまり知られていない映画やニッチ映画を推薦する能力を高めている。
論文 参考訳(メタデータ) (2024-04-29T20:17:06Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Uncertainty-Aware Explainable Recommendation with Large Language Models [15.229417987212631]
GPT-2のプロンプトとしてユーザおよびアイテム入力のIDベクトルを利用するモデルを開発する。
マルチタスク学習フレームワークには,推薦タスクと説明タスクの両方を最適化するために,共同トレーニング機構が採用されている。
提案手法はYelp, TripAdvisor, Amazon のデータセット上でそれぞれ 1.59 DIV, 0.57 USR, 0.41 FCR を達成する。
論文 参考訳(メタデータ) (2024-01-31T14:06:26Z) - Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文 参考訳(メタデータ) (2023-05-12T16:54:36Z) - Personalizing Intervened Network for Long-tailed Sequential User
Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。
テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。
本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-19T02:50:19Z) - CausPref: Causal Preference Learning for Out-of-Distribution
Recommendation [36.22965012642248]
現在のレコメンデータシステムは、現実的なシナリオにおけるユーザやアイテムの配布シフトに対して、依然として脆弱である。
本稿では,推奨特化DAG学習者を因果選好に基づく推薦フレームワークCausPrefに組み込むことを提案する。
当社のアプローチは、アウト・オブ・ディストリビューション・セッティングのタイプにおいて、ベンチマークモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2022-02-08T16:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。