論文の概要: Rank-Preference Consistency as the Appropriate Metric for Recommender Systems
- arxiv url: http://arxiv.org/abs/2404.17097v1
- Date: Fri, 26 Apr 2024 01:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 01:28:19.877928
- Title: Rank-Preference Consistency as the Appropriate Metric for Recommender Systems
- Title(参考訳): リコメンダシステムにおける適切な基準としてのランク参照整合性
- Authors: Tung Nguyen, Jeffrey Uhlmann,
- Abstract要約: 我々は、一元的不変なレコメンダシステム(RS)の性能は、基本的なRS特性を評価できないと論じる。
本稿では,ユーザの表現された製品嗜好と矛盾する予測ペアの数を単純に数えるランク-参照整合性を提案する。
- 参考スコア(独自算出の注目度): 4.3166389349316425
- License:
- Abstract: In this paper we argue that conventional unitary-invariant measures of recommender system (RS) performance based on measuring differences between predicted ratings and actual user ratings fail to assess fundamental RS properties. More specifically, posing the optimization problem as one of predicting exact user ratings provides only an indirect suboptimal approximation for what RS applications typically need, which is an ability to accurately predict user preferences. We argue that scalar measures such as RMSE and MAE with respect to differences between actual and predicted ratings are only proxies for measuring RS ability to accurately estimate user preferences. We propose what we consider to be a measure that is more fundamentally appropriate for assessing RS performance, rank-preference consistency, which simply counts the number of prediction pairs that are inconsistent with the user's expressed product preferences. For example, if an RS predicts the user will prefer product A over product B, but the user's withheld ratings indicate s/he prefers product B over A, then rank-preference consistency has been violated. Our test results conclusively demonstrate that methods tailored to optimize arbitrary measures such as RMSE are not generally effective at accurately predicting user preferences. Thus, we conclude that conventional methods used for assessing RS performance are arbitrary and misleading.
- Abstract(参考訳): 本稿では,予測されたレーティングと実際のユーザレーティングの差異を測る上で,従来の一元的不変なレコメンダシステム(RS)の性能測定が基本的RS特性を評価できないことを論じる。
より具体的には、最適化問題を正確なユーザレーティングの予測の1つとして表すことで、RSアプリケーションが通常必要とするものに対する間接的なサブ最適近似しか得られず、ユーザの好みを正確に予測する能力がある。
RMSE や MAE などのスカラー尺度は,実際の評価値と予測値の差に対して,ユーザの嗜好を正確に推定するRS 能力を測定するためのプロキシに過ぎない,と論じる。
本稿では,ユーザの表現された製品嗜好と矛盾する予測ペアの数を単純に数えることで,RS性能,ランク-参照整合性を評価するのに,より根本的に適した尺度であると考えられるものを提案する。
例えば、ユーザが製品Bよりも製品Aを好むとRSが予測するが、ユーザの非保持格付けは、Aよりも製品Bを好むことを示す。
実験の結果,RMSEなどの任意の手段を最適化する手法は,ユーザの嗜好を正確に予測する上で,一般的には有効ではないことが示された。
そこで我々は,従来のRS性能評価手法は任意であり,誤解を招くと結論づけた。
関連論文リスト
- Preference Diffusion for Recommendation [50.8692409346126]
DMベースのレコメンデータに適した最適化対象であるPreferDiffを提案する。
PreferDiffは、BPRをログライクなランキング目標に変換することで、ユーザの好みをよりよく把握する。
これはDMベースのレコメンデーション向けに特別に設計された、パーソナライズされたランキングの損失である。
論文 参考訳(メタデータ) (2024-10-17T01:02:04Z) - Quantifying User Coherence: A Unified Framework for Cross-Domain Recommendation Analysis [69.37718774071793]
本稿では,レコメンデーションシステムを理解するための新しい情報理論手法を提案する。
9つのデータセットで7つのレコメンデーションアルゴリズムを評価し、測定値と標準的なパフォーマンス指標の関係を明らかにする。
論文 参考訳(メタデータ) (2024-10-03T13:02:07Z) - Belief-State Query Policies for Planning With Preferences Under Partial Observability [18.821166966365315]
現実の環境での計画では、ユーザーの好みに合わせて部分的な可観測性に対処する必要があることが多い。
本稿では,パラメータ化信念状態クエリ(BSQ)を用いた部分的に観察可能な設定において,エージェント行動に対するユーザの嗜好を表現する新しいフレームワークを提案する。
BSQの選好は、部分的に観測可能な環境での選好を計画する上で、計算学的に実現可能なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-05-24T20:04:51Z) - Conformal Prediction in Multi-User Settings: An Evaluation [0.10231119246773925]
マシンラーニングモデルは、ユーザを区別することなく、トレーニングされ、評価される。
これにより、マルチユーザ設定で不正確なパフォーマンス指標が生成される。
本研究では,複数のマルチユーザ設定における共形予測フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-12-08T17:33:23Z) - Off-Policy Evaluation of Ranking Policies under Diverse User Behavior [25.226825574282937]
Inverse Propensity Scoring (IPS) は、大きなアクション空間下での高分散のため、ランキング設定において極めて不正確なものとなる。
この研究は、ユーザの振る舞いが多様であり、ユーザコンテキストによって異なるという、はるかに一般的な定式化を探求する。
結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-26T22:31:15Z) - Item-based Variational Auto-encoder for Fair Music Recommendation [1.8782288713227568]
EvalRS DataChallengeは、評価の正確性、公平性、多様性を考慮して、より現実的なレコメンデーションシステムを構築することを目的としている。
提案システムは,アイテムベース変分自動エンコーダ(VAE)とベイズパーソナライズされたランキング行列分解(BPRMF)のアンサンブルに基づく。
論文 参考訳(メタデータ) (2022-10-24T06:42:16Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - Estimating and Penalizing Induced Preference Shifts in Recommender
Systems [10.052697877248601]
システムデザイナは、レコメンデータが引き起こすシフトを見積もること、そのようなシフトが望まないかどうかを評価すること、さらには問題のあるシフトを避けるために積極的に最適化すること、などを議論する。
我々は、過去のユーザインタラクションデータを使用して、その好みのダイナミクスを暗黙的に含む予測的ユーザモデルをトレーニングする。
シミュレーション実験では、学習した嗜好動態モデルがユーザの嗜好を推定し、新しいレコメンデーションに対してどのように反応するかを示す。
論文 参考訳(メタデータ) (2022-04-25T21:04:46Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Set2setRank: Collaborative Set to Set Ranking for Implicit Feedback
based Recommendation [59.183016033308014]
本稿では,暗黙的フィードバックの特徴を探究し,推奨するSet2setRankフレームワークを提案する。
提案するフレームワークはモデルに依存しず,ほとんどの推奨手法に容易に適用できる。
論文 参考訳(メタデータ) (2021-05-16T08:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。