論文の概要: Navigating the Evaluation Funnel to Optimize Iteration Speed for Recommender Systems
- arxiv url: http://arxiv.org/abs/2404.08671v1
- Date: Wed, 3 Apr 2024 17:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-21 20:04:31.232193
- Title: Navigating the Evaluation Funnel to Optimize Iteration Speed for Recommender Systems
- Title(参考訳): リコメンダシステムのイテレーション速度最適化のための評価ファンネルのナビゲーション
- Authors: Claire Schultzberg, Brammert Ottens,
- Abstract要約: 本稿では,レコメンデーションシステムの評価ファンネルに関する推論を簡略化する新しいフレームワークを提案する。
成功の定義を、成功に必要な最小限の基準に分解することで、不要なアイデアを早期に特定できることを示す。
偽造ログ、検証、検証、A/Bテスト、インターリーブといった、いわゆるオフラインおよびオンライン評価手法を精査する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the last decades has emerged a rich literature on the evaluation of recommendation systems. However, less is written about how to efficiently combine different evaluation methods from this rich field into a single efficient evaluation funnel. In this paper we aim to build intuition for how to choose evaluation methods, by presenting a novel framework that simplifies the reasoning around the evaluation funnel for a recommendation system. Our contribution is twofold. First we present our framework for how to decompose the definition of success to construct efficient evaluation funnels, focusing on how to identify and discard non-successful iterations quickly. We show that decomposing the definition of success into smaller necessary criteria for success enables early identification of non-successful ideas. Second, we give an overview of the most common and useful evaluation methods, discuss their pros and cons, and how they fit into, and complement each other in, the evaluation process. We go through so-called offline and online evaluation methods such as counterfactual logging, validation, verification, A/B testing, and interleaving. The paper concludes with some general discussion and advice on how to design an efficient evaluation process for recommender systems.
- Abstract(参考訳): 過去数十年にわたり、レコメンデーションシステムの評価に関する豊富な文献が浮上してきた。
しかし、このリッチフィールドから異なる評価手法を効率的に組み合わせて単一の効率的な評価ファネルを作る方法については、あまり書かれていない。
本稿では,提案手法の選定方法に関する直観を構築することを目的として,レコメンデーションシステムにおける評価ファンネル周辺の推論を簡略化する新しい枠組みを提案する。
私たちの貢献は2倍です。
まず、効率の良い評価ファネルを構築するために成功の定義を分解する方法の枠組みを示し、不必要なイテレーションを素早く識別し破棄する方法に焦点を当てる。
成功の定義を、成功に必要な最小限の基準に分解することで、不要なアイデアを早期に特定できることを示す。
第2に、最も一般的で有用な評価方法の概要を説明し、それらの長所と短所、それらがどのように適合し、相互に補完するか、評価プロセスについて論じる。
偽造ログ、検証、検証、A/Bテスト、インターリーブといった、いわゆるオフラインおよびオンライン評価手法を精査する。
本論文は,レコメンデータシステムのための効率的な評価プロセスの設計方法について,いくつかの一般的な議論とアドバイスで締めくくっている。
関連論文リスト
- CovScore: Evaluation of Multi-Document Abstractive Title Set Generation [16.516381474175986]
CovScoreは、テーマのタイトルセットを評価するための自動参照レス方法論である。
評価の異なる側面に沿って,品質を5つの主要な指標に分解する手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:14:15Z) - Are We Wasting Time? A Fast, Accurate Performance Evaluation Framework
for Knowledge Graph Link Predictors [4.31947784387967]
より大規模な知識グラフでは、ランク付けプロセスは急速に重くなります。
従来のアプローチでは、エンティティのランダムサンプリングを使用して、メソッドによって予測または提案されるリンクの品質を評価していた。
得られた評価基準が真の結果を適切に反映していないため,本手法には深刻な限界があることが示されている。
本稿では,リレーショナルリコメンデータを用いて候補の選択を誘導するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T15:44:46Z) - A Comprehensive Survey of Evaluation Techniques for Recommendation
Systems [0.0]
本稿では,システム性能の異なる側面を捉えた,総合的なメトリクススイートを紹介する。
私たちは、現在の評価プラクティスの長所と短所を特定し、さまざまなメトリクスにまたがってレコメンデーションシステムを最適化するときに現れる、微妙なトレードオフを強調します。
論文 参考訳(メタデータ) (2023-12-26T11:57:01Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Evaluating the Predictive Performance of Positive-Unlabelled
Classifiers: a brief critical review and practical recommendations for
improvement [77.34726150561087]
Positive-Unlabelled (PU) 学習は機械学習の領域として成長している。
本稿では、PU分類器を提案する51の論文において、主要なPU学習評価手法と予測精度の選択について批判的にレビューする。
論文 参考訳(メタデータ) (2022-06-06T08:31:49Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Counterfactually Evaluating Explanations in Recommender Systems [14.938252589829673]
人間の関与なしに計算できるオフライン評価手法を提案する。
従来の手法と比較して,本手法は実際の人間の判断とより相関した評価スコアを得られることを示す。
論文 参考訳(メタデータ) (2022-03-02T18:55:29Z) - Measuring "Why" in Recommender Systems: a Comprehensive Survey on the
Evaluation of Explainable Recommendation [87.82664566721917]
この調査は、IJCAI、AAAI、TheWebConf、Recsys、UMAP、IUIといったトップレベルのカンファレンスから100以上の論文に基づいています。
論文 参考訳(メタデータ) (2022-02-14T02:58:55Z) - FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural
Language Understanding [89.92513889132825]
本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。
評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2021-09-27T00:57:30Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。