Fugu-MT 論文翻訳(概要): On Estimating Recommendation Evaluation Metrics under Sampling

論文の概要: On Estimating Recommendation Evaluation Metrics under Sampling

arxiv url: http://arxiv.org/abs/2103.01474v1
Date: Tue, 2 Mar 2021 05:08:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-03 17:08:12.924816
Title: On Estimating Recommendation Evaluation Metrics under Sampling
Title（参考訳）: サンプリング下における推奨評価指標の推定
Authors: Ruoming Jin and Dong Li and Benjamin Mudrak and Jing Gao Zhi Liu
Abstract要約: サンプリングをレコメンデーション評価に使用する方法についての理解とコンセンサスが未だに欠けている。本稿では,経験的ランク分布の学習に関する新しい研究問題と,推定ランク分布に基づく新しいアプローチを導入し,トップkの指標を推定する。
参考スコア（独自算出の注目度）: 7.3530323440156105
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Since the recent study ~\cite{Krichene20@KDD20} done by Krichene and Rendle on the sampling-based top-k evaluation metric for recommendation, there has been a lot of debates on the validity of using sampling to evaluate recommendation algorithms. Though their work and the recent work ~\cite{Li@KDD20} have proposed some basic approaches for mapping the sampling-based metrics to their global counterparts which rank the entire set of items, there is still a lack of understanding and consensus on how sampling should be used for recommendation evaluation. The proposed approaches either are rather uninformative (linking sampling to metric evaluation) or can only work on simple metrics, such as Recall/Precision~\cite{Krichene20@KDD20,Li@KDD20}. In this paper, we introduce a new research problem on learning the empirical rank distribution, and a new approach based on the estimated rank distribution, to estimate the top-k metrics. Since this question is closely related to the underlying mechanism of sampling for recommendation, tackling it can help better understand the power of sampling and can help resolve the questions of if and how should we use sampling for evaluating recommendation. We introduce two approaches based on MLE (Maximal Likelihood Estimation) and its weighted variants, and ME (Maximal Entropy) principals to recover the empirical rank distribution, and then utilize them for metrics estimation. The experimental results show the advantages of using the new approaches for evaluating recommendation algorithms based on top-k metrics.
Abstract（参考訳）: krichene と rendle による最近の研究 ~\cite{krichene20@kdd20} は、レコメンデーションのためのサンプリングベースのtop-k評価基準に基づいており、レコメンデーションアルゴリズムの評価にサンプリングを使用することの妥当性について多くの議論がなされている。彼らの研究と最近の研究 ~\cite{li@kdd20} は、サンプリングベースのメトリクスを、アイテムのセット全体をランク付けするグローバルな指標にマッピングするための基本的なアプローチを提案しているが、サンプリングがレコメンデーション評価にどのように使われるべきかについての理解とコンセンサスはまだ欠如している。提案手法はかなり非形式的(サンプリングを計量評価にリンクする)か、Recall/Precision~\cite{Krichene20@KDD20,Li@KDD20}のような単純なメトリクスでしか動作できない。本稿では,経験的ランク分布の学習に関する新しい研究課題と,推定ランク分布に基づく新しいアプローチを導入し,トップkの指標を推定する。この質問は、推奨のためのサンプリングの基盤となるメカニズムと密接に関連しているため、サンプリングのパワーをよりよく理解し、推奨を評価するためにサンプリングを使うべきか、どのように使うべきかという疑問を解決するのに役立ちます。我々は、MLE(Maximal Likelihood Estimation)とその重み付き変種に基づく2つのアプローチと、ME(Maximal Entropy)プリンシパルを導入して、経験的ランク分布を復元し、それをメトリクス推定に利用する。実験結果から,トップkメトリクスに基づく推薦アルゴリズムの評価に新たなアプローチを用いることの利点が示された。

関連論文リスト

From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
Benchmarking LLMs in Recommendation Tasks: A Comparative Evaluation with Conventional Recommenders [27.273217543282215]
本稿では、クリックスルーレート予測(CTR)とシーケンシャルレコメンデーション(SeqRec)という2つの主要なレコメンデーションタスクを評価するRecBenchを紹介する。実験は最大17種類の大モデルを対象としており、ファッション、ニュース、ビデオ、書籍、音楽ドメインの5つの多様なデータセットで実施されている。以上の結果から,LCMベースのレコメンデータは従来のレコメンデータよりも優れ,CTRシナリオでは最大5%のAUC改善,SeqRecシナリオでは最大170%のNDCG@10改善を実現した。
論文参考訳（メタデータ） (2025-03-07T15:05:23Z)
Improved Estimation of Ranks for Learning Item Recommenders with Negative Sampling [4.316676800486521]
レコメンデーションシステムでは、推奨アイテムの数が増加している。このコストを下げるために、ネガティブな項目をサンプリングすることが一般的になった。本研究では, 負のサンプリングによって生じるバイアスの補正の利点を実証する。
論文参考訳（メタデータ） (2024-10-08T21:09:55Z)
Active Evaluation Acquisition for Efficient LLM Benchmarking [18.85604491151409]
学習ポリシを用いて,各ベンチマークからサンプルのサブセットを選択することにより,評価効率を向上させる戦略を検討する。提案手法は,テスト例間の依存関係をモデル化し,残りの例に対する評価結果の正確な予測を可能にする。実験の結果,提案手法は必要な評価プロンプトの数を大幅に削減することが示された。
論文参考訳（メタデータ） (2024-10-08T12:08:46Z)
Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文参考訳（メタデータ） (2024-10-02T08:46:34Z)
Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文参考訳（メタデータ） (2024-03-07T03:24:34Z)
Are We Wasting Time? A Fast, Accurate Performance Evaluation Framework for Knowledge Graph Link Predictors [4.31947784387967]
より大規模な知識グラフでは、ランク付けプロセスは急速に重くなります。従来のアプローチでは、エンティティのランダムサンプリングを使用して、メソッドによって予測または提案されるリンクの品質を評価していた。得られた評価基準が真の結果を適切に反映していないため,本手法には深刻な限界があることが示されている。本稿では,リレーショナルリコメンデータを用いて候補の選択を誘導するフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-25T15:44:46Z)
Towards Better Evaluation of Instruction-Following: A Case-Study in Summarization [9.686937153317809]
本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。 riSumを用いて評価方法と人的判断の一致を分析した。
論文参考訳（メタデータ） (2023-10-12T15:07:11Z)
Improved Policy Evaluation for Randomized Trials of Algorithmic Resource Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文参考訳（メタデータ） (2023-02-06T05:17:22Z)
CEREAL: Few-Sample Clustering Evaluation [4.569028973407756]
限られたラベルでクラスタリング品質を推定する未解決の問題に焦点をあてる。本稿では,少数のクラスタリング評価のための総合的なフレームワークCEREALを紹介する。その結果,CEREALはサンプリング基準値と比較して絶対誤差曲線下での面積を最大57%削減できることがわかった。
論文参考訳（メタデータ） (2022-09-30T19:52:41Z)
Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。局所探索のための政策勾配は、しばしばランダムな摂動から得られる。目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-22T16:07:02Z)
A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文参考訳（メタデータ） (2021-03-31T18:28:14Z)
PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文参考訳（メタデータ） (2020-04-06T04:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。