論文の概要: Dataset Pruning in RecSys and ML: Best Practice or Mal-Practice?
- arxiv url: http://arxiv.org/abs/2510.14704v1
- Date: Thu, 16 Oct 2025 14:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.888851
- Title: Dataset Pruning in RecSys and ML: Best Practice or Mal-Practice?
- Title(参考訳): RecSysとMLにおけるデータセットのプルーニング - ベストプラクティスか,あるいはMal-Practiceか?
- Authors: Leonie Winter,
- Abstract要約: 本論文は,データプルーニングがデータセット特性とアルゴリズム性能に与える影響について考察する。
5つのベンチマークデータセットは、未解析の形式と連続した5つのプルーニングレベルの両方で分析された。
その結果、一般的に適用されるコアプルーニングは極めて選択的であり、一部のデータセットには元のユーザの2%しか残っていないことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline evaluations in recommender system research depend heavily on datasets, many of which are pruned, such as the widely used MovieLens collections. This thesis examines the impact of data pruning - specifically, removing users with fewer than a specified number of interactions - on both dataset characteristics and algorithm performance. Five benchmark datasets were analysed in both their unpruned form and at five successive pruning levels (5, 10, 20, 50, 100). For each coreset, we examined structural and distributional characteristics and trained and tested eleven representative algorithms. To further assess if pruned datasets lead to artificially inflated performance results, we also evaluated models trained on the pruned train sets but tested on unpruned data. Results show that commonly applied core pruning can be highly selective, leaving as little as 2% of the original users in some datasets. Traditional algorithms achieved higher nDCG@10 scores when both training and testing on pruned data; however, this advantage largely disappeared when evaluated on unpruned test sets. Across all algorithms, performance declined with increasing pruning levels when tested on unpruned data, highlighting the impact of dataset reduction on the performance of recommender algorithms.
- Abstract(参考訳): 推薦システム研究におけるオフライン評価はデータセットに大きく依存しており、多くは広く使われているMovieLensコレクションのように刈り取られている。
この論文では、データセットの特性とアルゴリズムのパフォーマンスの両方に対する、データプルーニング(具体的には、指定された数のインタラクションを持つユーザを削除する)の影響について検討する。
5つのベンチマークデータセットは、未刈取形式と5つの連続プルーニングレベル(5, 10, 20, 50, 100)の両方で分析された。
各コアセットについて, 構造特性と分布特性について検討し, 11個の代表アルゴリズムを訓練, 試験した。
さらに, 刈り取られたデータセットが人工的に膨らませた結果をもたらすかどうかを評価するため, 刈り取られたデータセットで訓練されたモデルの評価を行ったが, 未刈取データで試験した。
その結果、一般的に適用されるコアプルーニングは極めて選択的であり、一部のデータセットには元のユーザの2%しか残っていないことがわかった。
従来のアルゴリズムは、刈り取られたデータに対するトレーニングとテストの両方で、より高いnDCG@10スコアを達成したが、未処理のテストセットでの評価では、この優位性はほとんど失われていた。
すべてのアルゴリズム全体で、未解析データでテストすると、パフォーマンスが低下し、レコメンダアルゴリズムのパフォーマンスに対するデータセットの削減の影響が強調された。
関連論文リスト
- Effective Data Pruning through Score Extrapolation [40.61665742457229]
少数のデータのみをトレーニングする必要のある,新たな重要スコア外挿フレームワークを導入する。
このフレームワークでは,この最小限のサブセットから学習したパターンを用いて,データセット全体のサンプル重要度を正確に予測する2つの初期アプローチを提案する。
以上の結果から,スコアの補間は,プルーニングやデータ属性,その他のタスクなど,高価なスコア計算手法をスケールする上で有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2025-06-10T17:38:49Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework
for Enhancing Model Performance and Efficiency [9.460023981858319]
本稿では,AdaPruner と呼ばれる適応型 DAtaset PRUNing フレームワークを提案する。
AdaPrunerは、冗長なサンプルを期待プルーニング比率に反復的にプルークする。
トレーニングデータの最大10~30%をプルーニングしても、モデルパフォーマンスを著しく向上させることができる。
論文 参考訳(メタデータ) (2023-12-09T16:01:21Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。