論文の概要: Time to Split: Exploring Data Splitting Strategies for Offline Evaluation of Sequential Recommenders
- arxiv url: http://arxiv.org/abs/2507.16289v1
- Date: Tue, 22 Jul 2025 07:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.002182
- Title: Time to Split: Exploring Data Splitting Strategies for Offline Evaluation of Sequential Recommenders
- Title(参考訳): Time to Split:シークエンシャルレコメンダのオフライン評価のためのデータ分割戦略の探索
- Authors: Danil Gusak, Anna Volodkevich, Anton Klenitskiy, Alexey Vasilev, Evgeny Frolov,
- Abstract要約: シーケンシャルなレコメンデーションのための共通評価プロトコルは、現実世界のシナリオと一致しない。
グローバルな時間分割は、これらの問題を、異なる将来の期間に基づいて評価することで解決する。
以上の結果から, 離脱や離脱などの分裂は, より現実的な評価戦略と十分に一致していない可能性が示唆された。
- 参考スコア(独自算出の注目度): 1.3689715712707347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern sequential recommender systems, ranging from lightweight transformer-based variants to large language models, have become increasingly prominent in academia and industry due to their strong performance in the next-item prediction task. Yet common evaluation protocols for sequential recommendations remain insufficiently developed: they often fail to reflect the corresponding recommendation task accurately, or are not aligned with real-world scenarios. Although the widely used leave-one-out split matches next-item prediction, it permits the overlap between training and test periods, which leads to temporal leakage and unrealistically long test horizon, limiting real-world relevance. Global temporal splitting addresses these issues by evaluating on distinct future periods. However, its applications to sequential recommendations remain loosely defined, particularly in terms of selecting target interactions and constructing a validation subset that provides necessary consistency between validation and test metrics. In this paper, we demonstrate that evaluation outcomes can vary significantly across splitting strategies, influencing model rankings and practical deployment decisions. To improve reproducibility in both academic and industrial settings, we systematically compare different splitting strategies for sequential recommendations across multiple datasets and established baselines. Our findings show that prevalent splits, such as leave-one-out, may be insufficiently aligned with more realistic evaluation strategies. Code: https://github.com/monkey0head/time-to-split
- Abstract(参考訳): 軽量トランスフォーマーベースの変種から大規模言語モデルまで、現代のシーケンシャルレコメンデータシステムは、次世代の予測タスクにおける強力なパフォーマンスのために、学界や産業でますます顕著になっている。
しかし、シーケンシャルレコメンデーションのための一般的な評価プロトコルは不十分なままであり、しばしば対応するレコメンデーションタスクを正確に反映したり、現実のシナリオと整合しない。
広く使われているLeft-one-outの分割は次の項目の予測と一致するが、トレーニングとテスト期間の重複を許容し、時間的リークと非現実的に長いテストの地平線を導き、現実世界の関連性を制限する。
グローバルな時間分割は、これらの問題を、異なる将来の期間に基づいて評価することで解決する。
しかし、シーケンシャルなレコメンデーションへのその応用は、特にターゲットのインタラクションを選択し、検証とテストのメトリクスの間に必要な一貫性を提供する検証サブセットを構築するという点において、緩やかに定義されている。
本稿では, 分割戦略, モデルランキング, 実践的展開決定などにおいて, 評価結果が著しく異なることを実証する。
学術的・工業的な環境下での再現性を向上させるため,複数のデータセットと確立されたベースラインにまたがるシーケンシャルなレコメンデーションのための分割戦略を系統的に比較した。
以上の結果から, 離脱や離脱などの分裂は, より現実的な評価戦略と十分に一致していない可能性が示唆された。
コード:https://github.com/monkey0head/time-to-split
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - The Effects of Data Split Strategies on the Offline Experiments for CTR Prediction [0.0]
本研究の目的は,現在のオフライン評価手法と実世界のユースケースの矛盾に対処することである。
大規模なオープンベンチマークデータセットであるCriteo上で、ランダムスプリットとテンポラルスプリットの両方を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-26T13:01:52Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time [69.77704012415845]
時間的シフトは、現実世界にデプロイされた機械学習モデルのパフォーマンスを著しく低下させる可能性がある。
ドメイン一般化、連続学習、自己教師付き学習、アンサンブル学習の手法を含む13の先行手法をベンチマークする。
いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。
論文 参考訳(メタデータ) (2022-11-25T17:07:53Z) - Towards Out-of-Distribution Sequential Event Prediction: A Causal
Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。
実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。
文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T07:54:13Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Sequence Adaptation via Reinforcement Learning in Recommender Systems [8.909115457491522]
そこで我々は,SARモデルを提案する。SARモデルは,ユーザとイテムの相互作用のシーケンス長をパーソナライズされた方法で調整する。
さらに,逐次レコメンデーションの精度を批評家ネットワークの予測累積報酬と整合させるために,共同損失関数を最適化する。
実世界の4つのデータセットに対する実験的な評価は,提案モデルがいくつかのベースラインアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-31T13:56:46Z) - Simultaneously Reconciled Quantile Forecasting of Hierarchically Related
Time Series [11.004159006784977]
本稿では,階層間の予測の整合性を維持するために,量子レグレッション損失を最適化するフレキシブル非線形モデルを提案する。
ここで導入された理論的枠組みは、下層の微分可微分損失関数を持つ任意の予測モデルに適用できる。
論文 参考訳(メタデータ) (2021-02-25T00:59:01Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。