論文の概要: Extending MovieLens-32M to Provide New Evaluation Objectives
- arxiv url: http://arxiv.org/abs/2504.01863v1
- Date: Wed, 02 Apr 2025 16:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:17:39.711075
- Title: Extending MovieLens-32M to Provide New Evaluation Objectives
- Title(参考訳): MovieLens-32Mの拡張による新たな評価対象
- Authors: Mark D. Smucker, Houmaan Chamani,
- Abstract要約: 我々は、新しい評価目標を提供するMovieLens-32Mデータセットの拡張を提供する。
我々の主な目的は、ユーザーが視聴に興味を持つであろう映画、すなわち、ウォッチリストを予測することである。
人気映画をレコメンデーションアルゴリズムとして推奨することは、最悪のパフォーマンスの1つになる。
- 参考スコア(独自算出の注目度): 2.984929040246293
- License:
- Abstract: Offline evaluation of recommender systems has traditionally treated the problem as a machine learning problem. In the classic case of recommending movies, where the user has provided explicit ratings of which movies they like and don't like, each user's ratings are split into test and train sets, and the evaluation task becomes to predict the held out test data using the training data. This machine learning style of evaluation makes the objective to recommend the movies that a user has watched and rated highly, which is not the same task as helping the user find movies that they would enjoy if they watched them. This mismatch in objective between evaluation and task is a compromise to avoid the cost of asking a user to evaluate recommendations by watching each movie. As a resource available for download, we offer an extension to the MovieLens-32M dataset that provides for new evaluation objectives. Our primary objective is to predict the movies that a user would be interested in watching, i.e. predict their watchlist. To construct this extension, we recruited MovieLens users, collected their profiles, made recommendations with a diverse set of algorithms, pooled the recommendations, and had the users assess the pools. Notably, we found that the traditional machine learning style of evaluation ranks the Popular algorithm, which recommends movies based on total number of ratings in the system, in the middle of the twenty-two recommendation runs we used to build the pools. In contrast, when we rank the runs by users' interest in watching movies, we find that recommending popular movies as a recommendation algorithm becomes one of the worst performing runs. It appears that by asking users to assess their personal recommendations, we can alleviate the popularity bias issues created by using information retrieval effectiveness measures for the evaluation of recommender systems.
- Abstract(参考訳): 推薦システムのオフライン評価は伝統的に機械学習問題として扱われてきた。
ユーザーが好きな映画を明示的に評価し、好まない映画を推薦する古典的な場合には、各ユーザのレーティングをテストセットとトレーニングセットに分割し、トレーニングデータを用いて保持されたテストデータを予測する。
この機械学習による評価方式は、ユーザーが視聴し、評価した映画を高く推薦することを目的としている。
この評価と課題の客観的なミスマッチは、ユーザーが各映画を視聴してレコメンデーションを評価するコストを回避するための妥協である。
ダウンロード可能なリソースとして、新しい評価目的を提供するMovieLens-32Mデータセットの拡張を提供します。
我々の主な目的は、ユーザーが視聴に興味を持つであろう映画、すなわち、ウォッチリストを予測することである。
この拡張を構築するために、MovieLensユーザを募集し、プロファイルを収集し、さまざまなアルゴリズムでレコメンデーションを行い、レコメンデーションをプールし、ユーザがプールを評価するようにしました。
特に、従来の機械学習による評価スタイルでは、プール構築に使用した22回の推奨実行の途中で、システム内の評価値の総数に基づいて映画を推薦するPopularアルゴリズムがランク付けされている。
対照的に、ユーザーが映画を見ることに関心を抱くことで、人気映画を推薦アルゴリズムとして推薦することが、最悪の上演の1つになることが判明した。
利用者に個人推薦の評価を依頼することで,推薦システム評価のための情報検索効果尺度を用いて,人気バイアスの問題を軽減することができると考えられる。
関連論文リスト
- Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文 参考訳(メタデータ) (2025-02-05T17:14:45Z) - Can Large Language Models Understand Preferences in Personalized Recommendation? [32.2250928311146]
PerRecBenchを導入し、ユーザ評価バイアスとアイテムの品質から評価を分解する。
評価予測に長けているLCMベースのレコメンデーション手法では,ユーザの評価バイアスや項目品質を排除した場合,ユーザの好ましくない項目や好ましくない項目を識別できないことがわかった。
その結果、ポイントワイドランキングよりもペアワイズとリストワイズランキングの方が優れていること、PerRecBenchの従来の回帰指標との相関が低いこと、ユーザプロファイルの重要性、事前学習データ分布の役割が明らかになった。
論文 参考訳(メタデータ) (2025-01-23T05:24:18Z) - Monolithic Hybrid Recommender System for Suggesting Relevant Movies [0.0]
本稿では,視聴映像のシーケンスと関連映画の視聴率を考慮した協調フィルタリングの2つの手法について考察する。
用途に応じて様々な重みが設定される。
この問題を解決するための文献と方法論のアプローチについて論じられた。
論文 参考訳(メタデータ) (2024-11-16T20:41:17Z) - Measuring Strategization in Recommendation: Users Adapt Their Behavior to Shape Future Content [66.71102704873185]
実験と調査を行うことで,ユーザストラテジゼーションの試行を行う。
参加者の居住時間や「いいね!」の使用など,結果指標間での戦略化の強い証拠を見出す。
この結果から,プラットフォームはアルゴリズムがユーザの行動に与える影響を無視できないことが示唆された。
論文 参考訳(メタデータ) (2024-05-09T07:36:08Z) - Large Language Models as Conversational Movie Recommenders: A User Study [3.3636849604467]
大規模言語モデル(LLM)は、強い推薦性を提供するが、全体的なパーソナライゼーション、多様性、ユーザ信頼は欠如している。
LLMは、あまり知られていない映画やニッチ映画を推薦する能力を高めている。
論文 参考訳(メタデータ) (2024-04-29T20:17:06Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - PORE: Provably Robust Recommender Systems against Data Poisoning Attacks [58.26750515059222]
実証可能な堅牢なレコメンデータシステムを構築する最初のフレームワークであるPOREを提案する。
POREは、既存のレコメンデータシステムを、ターゲットのないデータ中毒攻撃に対して確実に堅牢に変換することができる。
POREは、データ中毒攻撃を受けたユーザに対して、少なくとも$N$アイテムの$r$を推奨していることを証明しています。
論文 参考訳(メタデータ) (2023-03-26T01:38:11Z) - Correcting the User Feedback-Loop Bias for Recommendation Systems [34.44834423714441]
本稿では,レコメンデーションシステムにおいて,ユーザのフィードバックループバイアスを修正するための系統的かつ動的手法を提案する。
本手法は,各ユーザの動的評価履歴の埋め込みを学習するためのディープラーニングコンポーネントを含む。
実世界のレコメンデーションシステムにおけるユーザフィードバックループバイアスの存在を実証的に検証した。
論文 参考訳(メタデータ) (2021-09-13T15:02:55Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z) - Data Poisoning Attacks to Deep Learning Based Recommender Systems [26.743631067729677]
深層学習に基づくレコメンダシステムに対するデータ中毒攻撃に関する最初の体系的研究を行う。
攻撃者の目標は、攻撃者選択対象項目が多くのユーザーに推奨されるように推奨システムを操作することです。
この目標を達成するために、この攻撃は、注意深い評価を施した偽ユーザーをレコメンダシステムへ注入する。
論文 参考訳(メタデータ) (2021-01-07T17:32:56Z) - Automating App Review Response Generation [67.58267006314415]
本稿では,レビューと回答の知識関係を学習することで,レビュー応答を自動的に生成する新しいアプローチRRGenを提案する。
58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4の点で少なくとも67.4%のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-10T05:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。