論文の概要: On (Normalised) Discounted Cumulative Gain as an Offline Evaluation
Metric for Top-$n$ Recommendation
- arxiv url: http://arxiv.org/abs/2307.15053v1
- Date: Thu, 27 Jul 2023 17:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 13:21:11.226588
- Title: On (Normalised) Discounted Cumulative Gain as an Offline Evaluation
Metric for Top-$n$ Recommendation
- Title(参考訳): 上位$レコメンデーションのためのオフライン評価指標としての(非正規化)累積ゲインについて
- Authors: Olivier Jeunen, Ivan Potapov, Aleksei Ustimenko
- Abstract要約: 計算累積ゲイン(Discounted Cumulative Gain, NDCG)は、経験的研究において広く採用されている指標の一つである。
我々は、我々の偏見のないDCGの推定値が、指標固有の仮定に違反した場合であっても、オンライン報酬と強く相関していることを示した。
- 参考スコア(独自算出の注目度): 10.012173294892964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approaches to recommendation are typically evaluated in one of two ways: (1)
via a (simulated) online experiment, often seen as the gold standard, or (2)
via some offline evaluation procedure, where the goal is to approximate the
outcome of an online experiment. Several offline evaluation metrics have been
adopted in the literature, inspired by ranking metrics prevalent in the field
of Information Retrieval. (Normalised) Discounted Cumulative Gain (nDCG) is one
such metric that has seen widespread adoption in empirical studies, and higher
(n)DCG values have been used to present new methods as the state-of-the-art in
top-$n$ recommendation for many years.
Our work takes a critical look at this approach, and investigates when we can
expect such metrics to approximate the gold standard outcome of an online
experiment. We formally present the assumptions that are necessary to consider
DCG an unbiased estimator of online reward and provide a derivation for this
metric from first principles, highlighting where we deviate from its
traditional uses in IR. Importantly, we show that normalising the metric
renders it inconsistent, in that even when DCG is unbiased, ranking competing
methods by their normalised DCG can invert their relative order. Through a
correlation analysis between off- and on-line experiments conducted on a
large-scale recommendation platform, we show that our unbiased DCG estimates
strongly correlate with online reward, even when some of the metric's inherent
assumptions are violated. This statement no longer holds for its normalised
variant, suggesting that nDCG's practical utility may be limited.
- Abstract(参考訳): 推奨へのアプローチは一般的に2つの方法で評価される: (1)(シミュレーションされた)オンライン実験、しばしばゴールドスタンダードと見なされる、または(2)オンライン実験の結果を近似するオフライン評価手順である。
いくつかのオフライン評価指標が文献で採用されており、インフォメーション検索の分野で広く使われているランキング指標にインスパイアされている。
(ノーマル化)
ディスカウント累積利得(英語版)(ndcg)は経験的研究で広く採用されているような指標の一つであり、より高い(n)dcg値は、長年にわたってトップ$n$レコメンデーションの最先端技術として新しい方法を示すために用いられてきた。
我々の研究は、このアプローチを批判的に考察し、そのような指標がオンライン実験のゴールドスタンダードの成果をいつ期待できるかを調査する。
我々は,DCGをオンライン報酬の偏りのない推定指標とみなすために必要な仮定を正式に提示し,この指標を第一原理から導出する。
重要なことは、計量の正規化は、DCGが非バイアスである場合でも、それらの正規化されたDCGによる競合メソッドのランク付けが相対的な順序を逆転できるという点において矛盾することを示している。
大規模レコメンデーションプラットフォーム上で行ったオフライン実験とオンライン実験の相関分析により,我々の偏見のないDCG推定値とオンライン報酬との相関関係が,指標固有の仮定に違反した場合でも強く示された。
この文はもはや正規化された変種を定めておらず、nDCGの実用性は制限される可能性があることを示唆している。
関連論文リスト
- Estimating Treatment Effects under Recommender Interference: A Structured Neural Networks Approach [13.208141830901845]
標準差分推定器は、推奨者干渉による偏差推定を導出できることを示す。
本稿では,処理項目と制御項目の両方を含むプールからどのアイテムが露出するかを記述した「レコメンダ選択モデル」を提案する。
提案した推定器はベンチマークに匹敵する結果が得られるのに対し,標準差分推定器は有意なバイアスを示し,また逆の兆候も生み出すことを示す。
論文 参考訳(メタデータ) (2024-06-20T14:53:26Z) - $Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies [13.528097424046823]
Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。
シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-05-16T12:04:55Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Aligning GPTRec with Beyond-Accuracy Goals with Reinforcement Learning [67.71952251641545]
GPTRecはアイテム・バイ・イテムレコメンデーションのためのTop-Kモデルの代替品である。
GPTRecは,従来のグリーディ・リグレード手法よりも精度とセカンダリ・メトリクスのトレードオフが優れていることを示す。
2つのデータセットに対する実験により、GPTRecのNext-K生成アプローチは、古典的なグリージーな再ランク技術よりも精度と二次メトリクスのトレードオフが優れていることが示された。
論文 参考訳(メタデータ) (2024-03-07T19:47:48Z) - Variance Reduction in Ratio Metrics for Efficient Online Experiments [12.036747050794135]
大規模なショートビデオプラットフォーム上での比率測定に分散低減手法を適用した: ShareChat。
その結果,77%の症例でA/Bテストの信頼性を向上できるか,データポイントを30%減らして同一の信頼性を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-01-08T18:01:09Z) - How Human is Human Evaluation? Improving the Gold Standard for NLG with
Utility Theory [47.10283773005394]
我々は、$textitsystem-level probabilistic Assessment$ (SPA)と呼ばれる新しい評価プロトコルを提案する。
SPAによると、アノテータは予想通り、より小さなものよりもGPT-3の変種を好んでおり、全ての比較は統計的に有意である。
我々の実験では、SPAによれば、アノテーターは予想したより小さいものよりも大きな GPT-3 の変種を好んでおり、全ての比較は統計的に有意である。
論文 参考訳(メタデータ) (2022-05-24T09:51:27Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Counterfactual Evaluation of Slate Recommendations with Sequential
Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。
したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。
そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文 参考訳(メタデータ) (2020-07-25T17:58:01Z) - Contrastive Learning for Debiased Candidate Generation in Large-Scale
Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。
我々はCLRecをさらに改良し、マルチCLRecを提案する。
提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-20T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。