Fugu-MT 論文翻訳(概要): What Are We Optimizing For? A Human-centric Evaluation Of Deep Learning-based Recommender Systems

論文の概要: What Are We Optimizing For? A Human-centric Evaluation Of Deep Learning-based Recommender Systems

arxiv url: http://arxiv.org/abs/2401.11632v1
Date: Sun, 21 Jan 2024 23:56:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 15:33:24.614001
Title: What Are We Optimizing For? A Human-centric Evaluation Of Deep Learning-based Recommender Systems
Title（参考訳）: 最適化とは何か? 深層学習に基づく推薦システムの人間中心評価
Authors: Ruixuan Sun, Avinash Akella, Xinyi Wu, Ruoyan Kong, Joseph A. Konstan
Abstract要約: レコメンデータシステム(RecSys)のディープラーニングモデルは、ユーザの好みを予測する際、顕著な精度で認識されている。我々は,推薦の質を評価するために7つの多様な指標を組み込んだ,堅牢な人間中心評価フレームワークを開発した。評価データセットは、オフラインベンチマークデータと、実際の445ユーザから収集した個人化されたオンラインレコメンデーションフィードバックの両方から構成される。
参考スコア（独自算出の注目度）: 13.792759409405152
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning-based (DL) models in recommender systems (RecSys) have gained significant recognition for their remarkable accuracy in predicting user preferences. However, their performance often lacks a comprehensive evaluation from a human-centric perspective, which encompasses various dimensions beyond simple interest matching. In this work, we have developed a robust human-centric evaluation framework that incorporates seven diverse metrics to assess the quality of recommendations generated by five recent open-sourced DL models. Our evaluation datasets consist of both offline benchmark data and personalized online recommendation feedback collected from 445 real users. We find that (1) different DL models have different pros and cons in the multi-dimensional metrics that we test with; (2) users generally want a combination of accuracy with at least one another human values in the recommendation; (3) the degree of combination of different values needs to be carefully experimented to user preferred level.
Abstract（参考訳）: 推薦システム(RecSys)における深層学習ベース(DL)モデルは,ユーザの嗜好を予測する上で顕著な精度で認識されている。しかしながら、それらの性能は、単純な関心マッチング以上の様々な次元を含む人間中心の観点からの包括的な評価を欠いていることが多い。本研究では,最近の5つのオープンソースDLモデルによって生成されるレコメンデーションの品質を評価するために,7つのメトリクスを組み込んだ頑健な人間中心評価フレームワークを開発した。評価データセットは、オフラインベンチマークデータと、実際の445ユーザから収集した個人化されたオンラインレコメンデーションフィードバックの両方から構成される。 1) 異なるdlモデルは多次元の指標において異なる長所と短所を持っていること, (2) ユーザは推奨において少なくとも1つの人間の値と精度の組み合わせを望んでいること, 3) 異なる値の組み合わせの度合いをユーザの好みのレベルまで慎重に実験する必要があること,の2つを見いだした。

関連論文リスト

Exploring the Potential of LLMs for Serendipity Evaluation in Recommender Systems [10.227007419503297]
大規模言語モデル(LLM)は、様々な人間のアノテーションタスクで評価手法に革命をもたらしている。電子商取引および映画分野における実際のユーザ研究から得られた2つのデータセットのメタ評価を行う。以上の結果から,最も単純なゼロショットLLMであっても,従来の測定値と同等あるいは超える性能が得られることが示唆された。
論文参考訳（メタデータ） (2025-07-23T07:51:56Z)
Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF [67.48004037550064]
本稿では,プロンプトと選好のペアを効率的に選択する能動的学習手法を提案する。提案手法は,モデル更新に対する影響を評価するために,すべての潜在的選好アノテーションの勾配を評価する。実験の結果,提案手法は,選択した完了に対する勝利率を最大5%向上させることがわかった。
論文参考訳（メタデータ） (2025-03-28T04:22:53Z)
Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文参考訳（メタデータ） (2025-01-25T07:21:50Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
CURE4Rec: A Benchmark for Recommendation Unlearning with Deeper Influence [55.21518669075263]
CURE4Recは、レコメンデーションアンラーニング評価のための最初の包括的なベンチマークである。さまざまな影響レベルのデータに対する推薦公正性と堅牢性に対するアンラーニングの影響について検討する。
論文参考訳（メタデータ） (2024-08-26T16:21:50Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文参考訳（メタデータ） (2024-06-13T16:17:21Z)
Large Language Models as Conversational Movie Recommenders: A User Study [3.3636849604467]
大規模言語モデル(LLM)は、強い推薦性を提供するが、全体的なパーソナライゼーション、多様性、ユーザ信頼は欠如している。 LLMは、あまり知られていない映画やニッチ映画を推薦する能力を高めている。
論文参考訳（メタデータ） (2024-04-29T20:17:06Z)
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文参考訳（メタデータ） (2024-04-22T17:20:18Z)
Uncertainty-Aware Explainable Recommendation with Large Language Models [15.229417987212631]
GPT-2のプロンプトとしてユーザおよびアイテム入力のIDベクトルを利用するモデルを開発する。マルチタスク学習フレームワークには,推薦タスクと説明タスクの両方を最適化するために,共同トレーニング機構が採用されている。提案手法はYelp, TripAdvisor, Amazon のデータセット上でそれぞれ 1.59 DIV, 0.57 USR, 0.41 FCR を達成する。
論文参考訳（メタデータ） (2024-01-31T14:06:26Z)
Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。 FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文参考訳（メタデータ） (2023-05-12T16:54:36Z)
Personalizing Intervened Network for Long-tailed Sequential User Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文参考訳（メタデータ） (2022-08-19T02:50:19Z)
CausPref: Causal Preference Learning for Out-of-Distribution Recommendation [36.22965012642248]
現在のレコメンデータシステムは、現実的なシナリオにおけるユーザやアイテムの配布シフトに対して、依然として脆弱である。本稿では,推奨特化DAG学習者を因果選好に基づく推薦フレームワークCausPrefに組み込むことを提案する。当社のアプローチは、アウト・オブ・ディストリビューション・セッティングのタイプにおいて、ベンチマークモデルを大幅に上回っている。
論文参考訳（メタデータ） (2022-02-08T16:42:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。