論文の概要: What Are We Optimizing For? A Human-centric Evaluation Of Deep
Learning-based Recommender Systems
- arxiv url: http://arxiv.org/abs/2401.11632v1
- Date: Sun, 21 Jan 2024 23:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:33:24.614001
- Title: What Are We Optimizing For? A Human-centric Evaluation Of Deep
Learning-based Recommender Systems
- Title(参考訳): 最適化とは何か?
深層学習に基づく推薦システムの人間中心評価
- Authors: Ruixuan Sun, Avinash Akella, Xinyi Wu, Ruoyan Kong, Joseph A. Konstan
- Abstract要約: レコメンデータシステム(RecSys)のディープラーニングモデルは、ユーザの好みを予測する際、顕著な精度で認識されている。
我々は,推薦の質を評価するために7つの多様な指標を組み込んだ,堅牢な人間中心評価フレームワークを開発した。
評価データセットは、オフラインベンチマークデータと、実際の445ユーザから収集した個人化されたオンラインレコメンデーションフィードバックの両方から構成される。
- 参考スコア(独自算出の注目度): 13.792759409405152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based (DL) models in recommender systems (RecSys) have gained
significant recognition for their remarkable accuracy in predicting user
preferences. However, their performance often lacks a comprehensive evaluation
from a human-centric perspective, which encompasses various dimensions beyond
simple interest matching. In this work, we have developed a robust
human-centric evaluation framework that incorporates seven diverse metrics to
assess the quality of recommendations generated by five recent open-sourced DL
models. Our evaluation datasets consist of both offline benchmark data and
personalized online recommendation feedback collected from 445 real users. We
find that (1) different DL models have different pros and cons in the
multi-dimensional metrics that we test with; (2) users generally want a
combination of accuracy with at least one another human values in the
recommendation; (3) the degree of combination of different values needs to be
carefully experimented to user preferred level.
- Abstract(参考訳): 推薦システム(RecSys)における深層学習ベース(DL)モデルは,ユーザの嗜好を予測する上で顕著な精度で認識されている。
しかしながら、それらの性能は、単純な関心マッチング以上の様々な次元を含む人間中心の観点からの包括的な評価を欠いていることが多い。
本研究では,最近の5つのオープンソースDLモデルによって生成されるレコメンデーションの品質を評価するために,7つのメトリクスを組み込んだ頑健な人間中心評価フレームワークを開発した。
評価データセットは、オフラインベンチマークデータと、実際の445ユーザから収集した個人化されたオンラインレコメンデーションフィードバックの両方から構成される。
1) 異なるdlモデルは多次元の指標において異なる長所と短所を持っていること, (2) ユーザは推奨において少なくとも1つの人間の値と精度の組み合わせを望んでいること, 3) 異なる値の組み合わせの度合いをユーザの好みのレベルまで慎重に実験する必要があること,の2つを見いだした。
関連論文リスト
- Uncertainty-Aware Explainable Recommendation with Large Language Models [15.229417987212631]
GPT-2のプロンプトとしてユーザおよびアイテム入力のIDベクトルを利用するモデルを開発する。
マルチタスク学習フレームワークには,推薦タスクと説明タスクの両方を最適化するために,共同トレーニング機構が採用されている。
提案手法はYelp, TripAdvisor, Amazon のデータセット上でそれぞれ 1.59 DIV, 0.57 USR, 0.41 FCR を達成する。
論文 参考訳(メタデータ) (2024-01-31T14:06:26Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [72.54255857335549]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - Debiasing Learning for Membership Inference Attacks Against Recommender
Systems [79.48353547307887]
学習されたレコメンデータシステムは、トレーニングデータに関する情報を不注意に漏洩させ、プライバシー侵害につながる可能性がある。
我々は,推薦者システムによるプライバシー上の脅威を,会員推定のレンズを通して調査する。
本稿では,4つの主要コンポーネントを持つリコメンダシステム(DL-MIA)フレームワークに対する,メンバシップ推論攻撃に対するバイアス学習を提案する。
論文 参考訳(メタデータ) (2022-06-24T17:57:34Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - Personalized Recommendation of PoIs to People with Autism [5.052126684056964]
ユーザの慣用的嫌悪感と彼女/彼の好みをパーソナライズするTop-Nレコメンデーションモデルを提案する。
ASDと"ニューロタイプ"の両方でモデルをテストしました。
論文 参考訳(メタデータ) (2020-04-27T12:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。