論文の概要: The Unreasonable Effectiveness of Data for Recommender Systems
- arxiv url: http://arxiv.org/abs/2604.06420v2
- Date: Thu, 09 Apr 2026 12:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 14:10:47.89058
- Title: The Unreasonable Effectiveness of Data for Recommender Systems
- Title(参考訳): Recommender システムにおけるデータの不合理な有効性
- Authors: Youssef Abdou,
- Abstract要約: 推奨システムでは、大規模なインタラクションデータの収集、保存、処理は、時間、エネルギー、計算の面でますますコストがかかる。
本稿では,トレーニングデータセットのサイズが大きくなるにつれて,オフラインレコメンデーションのパフォーマンスが向上するかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recommender systems, collecting, storing, and processing large-scale interaction data is increasingly costly in terms of time, energy, and computation, yet it remains unclear when additional data stops providing meaningful gains. This paper investigates how offline recommendation performance evolves as the size of the training dataset increases and whether a saturation point can be observed. We implemented a reproducible Python evaluation workflow with two established toolkits, LensKit and RecBole, included 11 large public datasets with at least 7 million interactions, and evaluated 10 tool-algorithm combinations. Using absolute stratified user sampling, we trained models on nine sample sizes from 100,000 to 100,000,000 interactions and measured NDCG@10. Overall, raw NDCG usually increased with sample size, with no observable saturation point. To make result groups comparable, we applied min-max normalization within each group, revealing a clear positive trend in which around 75% of the points at the largest completed sample size also achieved the group's best observed performance. A late-stage slope analysis over the final 10-30% of each group further supported this upward trend: the interquartile range remained entirely non-negative with a median near 1.0. In summary, for traditional recommender systems on typical user-item interaction data, incorporating more training data remains primarily beneficial, while weaker scaling behavior is concentrated in atypical dataset cases and in the algorithmic outlier RecBole BPR under our setup.
- Abstract(参考訳): 推奨システムでは、大規模なインタラクションデータの収集、保存、処理は、時間、エネルギー、計算の面でますますコストがかかるが、追加のデータが有意義な利益をもたらすかどうかは不明だ。
本稿では,トレーニングデータセットのサイズが大きくなるにつれてオフラインレコメンデーションのパフォーマンスが向上し,飽和点が観測できるかどうかを検討する。
我々は、LensKitとRecBoleという2つの確立されたツールキットで再現可能なPython評価ワークフローを実装した。
絶対成層化ユーザサンプリングを用いて,10万~10万のインタラクションから9つのサンプルサイズのモデルをトレーニングし,NDCG@10。
総じて, NDCGは試料径とともに増加し, 観測可能な飽和点は得られなかった。
結果群を比較検討するため, 各群でmin-max正規化を適用し, 最大試料径の点の約75%は, 群として最高の観測性能を示した。
各群の最終10~30%の後期斜面解析では、この上昇傾向がさらに支持された。
要約すると、一般的なユーザとイテムのインタラクションデータに対する従来のレコメンデータシステムでは、トレーニングデータをもっと多く組み込むことが主に有用であり、一方、より弱いスケーリング動作は非定型データセットケースやアルゴリズム上の外れ値であるRecBole BPRに集中している。
関連論文リスト
- DataProphet: Demystifying Supervision Data Generalization in Multimodal LLMs [49.877224470539126]
トレーニングデータセットが目標ベンチマークに与える影響を,トレーニングが実行される前に見積もることができるか?
この結果から,直感的タスク類似性は伝達可能性の信頼できない予測因子であり,一般化はタスクカテゴリよりも特定のデータセットに依存していることがわかった。
そこで本研究では,マルチモーダルなパープレクティリティ,類似性,データ多様性を組み合わせたトレーニング不要な指標であるDatePROPHETを提案する。
論文 参考訳(メタデータ) (2026-03-20T06:42:26Z) - Optimizing the Training Diet: Data Mixture Search for Robust Time Series Forecasting [0.8665758002017515]
データセットを考える場合、いくつかのケースでは"なしはそれ以上"であることが示されます。
本稿では,大規模・未ラベルの時系列コーパスから最適な「トレーニングダイエット」を発見するための枠組みを提案する。
論文 参考訳(メタデータ) (2025-12-12T13:26:07Z) - CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - Group-Level Data Selection for Efficient Pretraining [49.18903821780051]
Group-MATESは、言語モデル事前訓練の速度品質フロンティアを最適化する効率的なグループレベルのデータ選択手法である。
Group-MATESは、リレーショナルデータの影響モデルを用いてコストの高いグループレベルの選択をパラメータ化する。
論文 参考訳(メタデータ) (2025-02-20T16:34:46Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Infinite Recommendation Networks: A Data-Centric Approach [8.044430277912936]
Neural Tangent Kernelを活用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダであるinfty$-AEを考案します。
また、小型で高忠実なデータ要約を合成するためのDistill-CFを開発した。
我々は、最初のデータセットサイズの0.1%に満たない完全なデータセット上で、infty$-AEのパフォーマンスの96-105%を観察した。
論文 参考訳(メタデータ) (2022-06-03T00:34:13Z) - On Sampling Collaborative Filtering Datasets [9.041133460836361]
提案アルゴリズムのランク付け性能に対するデータセットサンプリング戦略の実践的結果について検討する。
我々は、与えられたデータセットのモデル性能を最も保持する可能性のあるサンプリングスキームを提案できるオラクル、Data-Genieを開発した。
論文 参考訳(メタデータ) (2022-01-13T02:39:22Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Outlier Guided Optimization of Abdominal Segmentation [7.036733782879497]
腹部多臓器分割のための訓練済み3次元U-Netモデルを構築した。
私たちは、データセットを、外れ値データ(例えば、ベースラインアルゴリズムが失敗した例)または不一致値(例えば、ベースラインアルゴリズムが動作した例)で拡張します。
余剰値の追加の限界値は、余剰値の追加の限界値よりも高いことがわかった。
論文 参考訳(メタデータ) (2020-02-10T21:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。