論文の概要: SplitLight: An Exploratory Toolkit for Recommender Systems Datasets and Splits
- arxiv url: http://arxiv.org/abs/2602.19339v1
- Date: Sun, 22 Feb 2026 21:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.598168
- Title: SplitLight: An Exploratory Toolkit for Recommender Systems Datasets and Splits
- Title(参考訳): SplitLight: Recommenderシステムデータセットとスプリットのための探索ツールキット
- Authors: Anna Volodkevich, Dmitry Anikin, Danil Gusak, Anton Klenitskiy, Evgeny Frolov, Alexey Vasilev,
- Abstract要約: SplitLightは、パイプラインの事前処理と分割を設計するためのオープンソースの探索ツールキットである。
SplitLightは、コアおよび時間データセット統計を分析し、繰り返し消費パターンとタイムスタンプ異常を特徴づけ、分割妥当性を診断する。
SplitLightは、評価プロトコルを正当化し、透過的で信頼性があり、同等の実験をサポートする監査要約を生成する。
- 参考スコア(独自算出の注目度): 2.2596617589020966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline evaluation of recommender systems is often affected by hidden, under-documented choices in data preparation. Seemingly minor decisions in filtering, handling repeats, cold-start treatment, and splitting strategy design can substantially reorder model rankings and undermine reproducibility and cross-paper comparability. In this paper, we introduce SplitLight, an open-source exploratory toolkit that enables researchers and practitioners designing preprocessing and splitting pipelines or reviewing external artifacts to make these decisions measurable, comparable, and reportable. Given an interaction log and derived split subsets, SplitLight analyzes core and temporal dataset statistics, characterizes repeat consumption patterns and timestamp anomalies, and diagnoses split validity, including temporal leakage, cold-user/item exposure, and distribution shifts. SplitLight further allows side-by-side comparison of alternative splitting strategies through comprehensive aggregated summaries and interactive visualizations. Delivered as both a Python toolkit and an interactive no-code interface, SplitLight produces audit summaries that justify evaluation protocols and support transparent, reliable, and comparable experimentation in recommender systems research and industry.
- Abstract(参考訳): レコメンデータシステムのオフライン評価は、データ準備において隠れ、文書化されていない選択に影響されることが多い。
フィルタリング、リピート処理、コールドスタート処理、分割戦略設計の微妙な決定は、モデルランキングを実質的に変更し、再現性とクロスペーパーの互換性を損なう可能性がある。
本稿では,パイプラインの事前処理や分割を設計したり,外部のアーティファクトをレビューして,これらの決定を計測可能,比較可能,報告可能とする,オープンソースの探索ツールキットであるSplitLightを紹介する。
SplitLightは、インタラクションログと派生した分割サブセットを与えられた上で、コアおよび時間データセット統計を分析し、繰り返し消費パターンとタイムスタンプ異常を特徴づけ、時間的リーク、コールドユーザ/イテム露出、分散シフトなどの分割妥当性を診断する。
SplitLightはさらに、包括的な集計サマリとインタラクティブな視覚化を通じて、代替スプリット戦略のサイドバイサイド比較を可能にする。
Pythonツールキットとインタラクティブなノーコードインターフェースの両方として提供されるSplitLightは、評価プロトコルを正当化し、レコメンデーションシステムの研究と産業において透過的で信頼性があり、同等の実験をサポートする監査サマリを生成する。
関連論文リスト
- Time to Split: Exploring Data Splitting Strategies for Offline Evaluation of Sequential Recommenders [1.3689715712707347]
シーケンシャルなレコメンデーションのための共通評価プロトコルは、現実世界のシナリオと一致しない。
グローバルな時間分割は、これらの問題を、異なる将来の期間に基づいて評価することで解決する。
以上の結果から, 離脱や離脱などの分裂は, より現実的な評価戦略と十分に一致していない可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-22T07:20:52Z) - Understanding the Limits of Deep Tabular Methods with Temporal Shift [28.738848567072004]
本稿では,Fourier級数展開に基づく時間的組込み手法を提案し,時間的パターンを学習し,組み込む。
我々の実験は、この時間的埋め込みと改良されたトレーニングプロトコルを組み合わせることで、時間的データから学習するためのより効果的で堅牢なフレームワークが提供されることを示した。
論文 参考訳(メタデータ) (2025-02-27T16:48:53Z) - Regularized Contrastive Partial Multi-view Outlier Detection [76.77036536484114]
RCPMOD(Regularized Contrastive partial Multi-view Outlier Detection)と呼ばれる新しい手法を提案する。
このフレームワークでは、コントラスト学習を利用して、ビュー一貫性のある情報を学び、一貫性の度合いでアウトレイラを識別する。
4つのベンチマークデータセットによる実験結果から,提案手法が最先端の競合より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-02T14:34:27Z) - Latent Feature-based Data Splits to Improve Generalisation Evaluation: A
Hate Speech Detection Case Study [33.1099258648462]
我々は、モデルが潜在空間の盲点において破滅的に失敗することを示す2つの分割変種を提示する。
解析の結果,データ分割の面面レベル特性は明らかになく,性能が低下していることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T23:49:55Z) - Contrastive Continual Multi-view Clustering with Filtered Structural
Fusion [57.193645780552565]
ビューが事前に収集されるアプリケーションでは、マルチビュークラスタリングが成功します。
データビューがシーケンシャルに収集されるシナリオ、すなわちリアルタイムデータを見落としている。
いくつかの方法が提案されているが、安定塑性ジレンマに閉じ込められている。
フィルタ構造融合を用いたコントラスト連続多視点クラスタリングを提案する。
論文 参考訳(メタデータ) (2023-09-26T14:18:29Z) - Surgical Phase and Instrument Recognition: How to identify appropriate
Dataset Splits [2.045596350476764]
この作業は、データセット分割のインタラクティブな探索を可能にする、公開データ可視化ツールを提供する。
位相、位相遷移、楽器、計器の組み合わせの発生を可視化することに焦点を当てている。
結果: 一般的なColec80データセット分割の解析を行い, いずれかの集合に表現されていない相転移と組み合わせを明らかにすることができた。
論文 参考訳(メタデータ) (2023-06-29T12:02:16Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Reinforced Approximate Exploratory Data Analysis [7.974685452145769]
まず,対話型データ探索環境におけるサンプリングの影響について検討し,近似誤差を導入する。
本稿では, サンプル選択を最適化し, 分析および洞察フローの持続性を維持するための, 深層強化学習(DRL)に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-12T20:20:22Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。