論文の概要: RecNextEval: A Reference Implementation for Temporal Next-Batch Recommendation Evaluation
- arxiv url: http://arxiv.org/abs/2604.13665v1
- Date: Wed, 15 Apr 2026 09:34:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.471041
- Title: RecNextEval: A Reference Implementation for Temporal Next-Batch Recommendation Evaluation
- Title(参考訳): RecNextEval: 時間的次バッチレコメンデーション評価のためのリファレンス実装
- Authors: Tze-Kean Ng, Joshua Teng-Khing Khoo, Aixin Sun,
- Abstract要約: 本稿では,次世代のレコメンデーションに特化して設計された評価フレームワークのリファレンス実装であるRecNextEvalを紹介する。
我々の実装はRecSys評価の複雑さを強調し、より正確に生産環境をシミュレートするモデル開発へのシフトを促す。
- 参考スコア(独自算出の注目度): 24.435969827173977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A good number of toolkits have been developed in Recommender Systems (RecSys) research to promote fair evaluation and reproducibility. However, recent critical examinations of RecSys evaluation protocols have raised concerns regarding the validity of existing evaluation pipelines. In this demonstration, we present RecNextEval, a reference implementation of an evaluation framework specifically designed for next-batch recommendation. RecNextEval utilizes a time-window data split to ensure models are evaluated along a global timeline, effectively minimizing data leakage. Our implementation highlights the inherent complexities of RecSys evaluation and encourages a shift toward model development that more accurately simulates production environments. The RecNextEval library and its accompanying GUI interface are open-source and publicly accessible.
- Abstract(参考訳): 公正な評価と再現性を促進するために、Recommender Systems(RecSys)研究で多くのツールキットが開発されている。
しかし、RecSys評価プロトコルの最近の批判的な検証は、既存の評価パイプラインの有効性に関する懸念を提起している。
本稿では,次のバッチレコメンデーション用に特別に設計された評価フレームワークのリファレンス実装であるRecNextEvalを紹介する。
RecNextEvalは、タイムウインドウデータ分割を利用して、モデルがグローバルタイムラインに沿って評価されることを保証し、データ漏洩を効果的に最小化する。
我々の実装はRecSys評価の複雑さを強調し、より正確に生産環境をシミュレートするモデル開発へのシフトを促す。
RecNextEvalライブラリとその付属のGUIインターフェースはオープンソースであり、一般公開されている。
関連論文リスト
- RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:54:04Z) - Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [65.13288661320364]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。
このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文 参考訳(メタデータ) (2024-12-23T08:15:34Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Evaluating the Robustness of Off-Policy Evaluation [10.760026478889664]
Off-policy Evaluation (OPE)は、オフラインログデータのみを活用する仮説的ポリシーの性能を評価する。
オンラインインタラクションが高利得と高価な設定を含むアプリケーションでは特に有用である。
我々は,OPE推定器のロバスト性を評価する実験手法であるIEOE(Interpretable Evaluation for Offline Evaluation)を開発した。
論文 参考訳(メタデータ) (2021-08-31T09:33:13Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。