Fugu-MT 論文翻訳(概要): On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-$n$ Recommendation

論文の概要: On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-$n$ Recommendation

arxiv url: http://arxiv.org/abs/2307.15053v2
Date: Wed, 15 Nov 2023 14:46:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 20:01:09.204610
Title: On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-$n$ Recommendation
Title（参考訳）: トップ・ドル・レコメンデーションのためのオフ・ポリティクス評価指標としての算術的利得の非正規化について
Authors: Olivier Jeunen, Ivan Potapov, Aleksei Ustimenko
Abstract要約: 計算累積ゲイン(Discounted Cumulative Gain, NDCG)は、経験的研究において広く採用されている指標の一つである。我々は、我々の偏見のないDCGの推定値が、指標固有の仮定に違反した場合であっても、オンライン報酬と強く相関していることを示した。
参考スコア（独自算出の注目度）: 13.528097424046823
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Approaches to recommendation are typically evaluated in one of two ways: (1) via a (simulated) online experiment, often seen as the gold standard, or (2) via some offline evaluation procedure, where the goal is to approximate the outcome of an online experiment. Several offline evaluation metrics have been adopted in the literature, inspired by ranking metrics prevalent in the field of Information Retrieval. (Normalised) Discounted Cumulative Gain (nDCG) is one such metric that has seen widespread adoption in empirical studies, and higher (n)DCG values have been used to present new methods as the state-of-the-art in top-$n$ recommendation for many years. Our work takes a critical look at this approach, and investigates when we can expect such metrics to approximate the gold standard outcome of an online experiment. We formally present the assumptions that are necessary to consider DCG an unbiased estimator of online reward and provide a derivation for this metric from first principles, highlighting where we deviate from its traditional uses in IR. Importantly, we show that normalising the metric renders it inconsistent, in that even when DCG is unbiased, ranking competing methods by their normalised DCG can invert their relative order. Through a correlation analysis between off- and on-line experiments conducted on a large-scale recommendation platform, we show that our unbiased DCG estimates strongly correlate with online reward, even when some of the metric's inherent assumptions are violated. This statement no longer holds for its normalised variant, suggesting that nDCG's practical utility may be limited.
Abstract（参考訳）: 推奨へのアプローチは一般的に2つの方法で評価される: (1)(シミュレーションされた)オンライン実験、しばしばゴールドスタンダードと見なされる、または(2)オンライン実験の結果を近似するオフライン評価手順である。いくつかのオフライン評価指標が文献で採用されており、インフォメーション検索の分野で広く使われているランキング指標にインスパイアされている。 (ノーマル化) ディスカウント累積利得(英語版)(ndcg)は経験的研究で広く採用されているような指標の一つであり、より高い(n)dcg値は、長年にわたってトップ$n$レコメンデーションの最先端技術として新しい方法を示すために用いられてきた。我々の研究は、このアプローチを批判的に考察し、そのような指標がオンライン実験のゴールドスタンダードの成果をいつ期待できるかを調査する。我々は,DCGをオンライン報酬の偏りのない推定指標とみなすために必要な仮定を正式に提示し,この指標を第一原理から導出する。重要なことは、計量の正規化は、DCGが非バイアスである場合でも、それらの正規化されたDCGによる競合メソッドのランク付けが相対的な順序を逆転できるという点において矛盾することを示している。大規模レコメンデーションプラットフォーム上で行ったオフライン実験とオンライン実験の相関分析により,我々の偏見のないDCG推定値とオンライン報酬との相関関係が,指標固有の仮定に違反した場合でも強く示された。この文はもはや正規化された変種を定めておらず、nDCGの実用性は制限される可能性があることを示唆している。

関連論文リスト

Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in Ad Auctions [16.315158617837646]
この研究は、決定論的オークション環境における信頼性の高いオフ・ポリティ・アセスメント(OPE)のための、初めて実用的で検証されたフレームワークに貢献する。提案手法は,提案手法を用いて提案した提案手法を,提案手法を用いて提案する提案手法である。 AuctionNetシミュレーションベンチマークと大規模産業プラットフォームによる2週間のオンラインA/Bテストに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-12-03T01:37:42Z)
C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning [54.705168477975384]
推論モデル学習のためのグループシーケンスポリシーグラディエント(GSPG)フレームワーク。 C$2$GSPGは、自信過剰を抑えながら推論性能を同時に向上させる。
論文参考訳（メタデータ） (2025-09-27T05:24:51Z)
Off-Policy Evaluation and Learning for Matching Markets [15.585641615174623]
オフラインログデータのみを使用してレコメンデーションポリシーの評価を可能にすることで、オフポリシー評価(OPE)が重要な役割を果たす。我々は、マッチング市場向けに特別に設計された新しいOPE推定器、textitDiPS、textitDPRを提案する。本手法は, 直接法(DM), 逆確率スコア(IPS), 二重ロバスト(DR)推定器の要素を組み合わせる。
論文参考訳（メタデータ） (2025-07-18T02:23:37Z)
Rethinking Metrics and Benchmarks of Video Anomaly Detection [58.37571339811799]
ビデオ異常検出(VAD)は、期待から外れた異常を検出することを目的としている。既存のVADメトリクスは、単一のアノテーションバイアスの影響を受けます。既存のベンチマークには、完全に/弱い教師付きアルゴリズムのシーンオーバーフィットを評価する能力がない。
論文参考訳（メタデータ） (2025-05-25T08:09:42Z)
Estimating Treatment Effects under Recommender Interference: A Structured Neural Networks Approach [13.208141830901845]
標準差分推定器は、推奨者干渉による偏差推定を導出できることを示す。本稿では,処理項目と制御項目の両方を含むプールからどのアイテムが露出するかを記述した「レコメンダ選択モデル」を提案する。提案した推定器はベンチマークに匹敵する結果が得られるのに対し,標準差分推定器は有意なバイアスを示し,また逆の兆候も生み出すことを示す。
論文参考訳（メタデータ） (2024-06-20T14:53:26Z)
$Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies [13.528097424046823]
Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
論文参考訳（メタデータ） (2024-05-16T12:04:55Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
Aligning GPTRec with Beyond-Accuracy Goals with Reinforcement Learning [67.71952251641545]
GPTRecはアイテム・バイ・イテムレコメンデーションのためのTop-Kモデルの代替品である。 GPTRecは,従来のグリーディ・リグレード手法よりも精度とセカンダリ・メトリクスのトレードオフが優れていることを示す。 2つのデータセットに対する実験により、GPTRecのNext-K生成アプローチは、古典的なグリージーな再ランク技術よりも精度と二次メトリクスのトレードオフが優れていることが示された。
論文参考訳（メタデータ） (2024-03-07T19:47:48Z)
Variance Reduction in Ratio Metrics for Efficient Online Experiments [12.036747050794135]
大規模なショートビデオプラットフォーム上での比率測定に分散低減手法を適用した: ShareChat。その結果,77%の症例でA/Bテストの信頼性を向上できるか,データポイントを30%減らして同一の信頼性を維持することができることがわかった。
論文参考訳（メタデータ） (2024-01-08T18:01:09Z)
How Human is Human Evaluation? Improving the Gold Standard for NLG with Utility Theory [47.10283773005394]
我々は、$textitsystem-level probabilistic Assessment$ (SPA)と呼ばれる新しい評価プロトコルを提案する。 SPAによると、アノテータは予想通り、より小さなものよりもGPT-3の変種を好んでおり、全ての比較は統計的に有意である。我々の実験では、SPAによれば、アノテーターは予想したより小さいものよりも大きな GPT-3 の変種を好んでおり、全ての比較は統計的に有意である。
論文参考訳（メタデータ） (2022-05-24T09:51:27Z)
Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。 BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文参考訳（メタデータ） (2021-10-24T10:23:51Z)
Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文参考訳（メタデータ） (2020-07-25T17:58:01Z)
Contrastive Learning for Debiased Candidate Generation in Large-Scale Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。我々はCLRecをさらに改良し、マルチCLRecを提案する。提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文参考訳（メタデータ） (2020-05-20T08:15:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。