論文の概要: DataRec: A Python Library for Standardized and Reproducible Data Management in Recommender Systems
- arxiv url: http://arxiv.org/abs/2410.22972v2
- Date: Sun, 06 Apr 2025 07:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:05:24.910002
- Title: DataRec: A Python Library for Standardized and Reproducible Data Management in Recommender Systems
- Title(参考訳): DataRec: Recommenderシステムにおける標準化された再現可能なデータ管理のためのPythonライブラリ
- Authors: Alberto Carlo Maria Mancino, Salvatore Bufi, Angela Di Fazio, Antonio Ferrara, Daniele Malitesta, Claudio Pomo, Tommaso Di Noia,
- Abstract要約: DataRecはPythonベースのライブラリで、レコメンデーションシステム研究におけるデータ処理の統合と合理化を目的としている。
データセットの準備、データバージョニング、シームレスな統合のためのルーチンを提供することで、DataRecは方法論の標準化を促進する。
私たちの貢献は、より広範なレコメンデーションシステムコミュニティにおいて、公正で、ベンチマークを行い、実験結果に対する信頼性を高めます。
- 参考スコア(独自算出の注目度): 10.25838775445973
- License:
- Abstract: Recommender systems have demonstrated significant impact across diverse domains, yet ensuring the reproducibility of experimental findings remains a persistent challenge. A primary obstacle lies in the fragmented and often opaque data management strategies employed during the preprocessing stage, where decisions about dataset selection, filtering, and splitting can substantially influence outcomes. To address these limitations, we introduce DataRec, an open-source Python-based library specifically designed to unify and streamline data handling in recommender system research. By providing reproducible routines for dataset preparation, data versioning, and seamless integration with other frameworks, DataRec promotes methodological standardization, interoperability, and comparability across different experimental setups. Our design is informed by an in-depth review of 55 state-of-the-art recommendation studies ensuring that DataRec adopts best practices while addressing common pitfalls in data management. Ultimately, our contribution facilitates fair benchmarking, enhances reproducibility, and fosters greater trust in experimental results within the broader recommender systems community. The DataRec library, documentation, and examples are freely available at https://github.com/sisinflab/DataRec.
- Abstract(参考訳): レコメンダシステムは様々な領域で大きな影響を与えてきたが、実験結果の再現性を保証することは永続的な課題である。
主な障害は、データセットの選択、フィルタリング、分割に関する決定が結果に大きく影響する、前処理段階で使用される断片化され、しばしば不透明なデータ管理戦略にある。
これらの制限に対処するため,推奨システム研究におけるデータ処理の統一と合理化を目的とした,オープンソースのPythonベースのライブラリであるDataRecを紹介した。
データセットの準備、データバージョニング、他のフレームワークとのシームレスな統合のための再現可能なルーチンを提供することで、DataRecはさまざまな実験的なセットアップにおける方法論的な標準化、相互運用性、および互換性を促進する。
我々の設計は、データ管理における共通の落とし穴に対処しながら、DataRecがベストプラクティスを採用することを保証する55の最先端のレコメンデーション研究の詳細なレビューによって通知されます。
最終的に、我々の貢献は公正なベンチマークを促進し、再現性を高め、より広範な推奨システムコミュニティにおける実験結果に対する信頼性を高めます。
DataRecライブラリ、ドキュメンテーション、サンプルはhttps://github.com/sisinflab/DataRecで無料で入手できる。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - CF Recommender System Based on Ontology and Nonnegative Matrix Factorization (NMF) [0.0]
この作業は、レコメンダシステムのデータ空間と精度の問題に対処する。
実装されたアプローチは、CF提案の空白度を効果的に削減し、その正確性を改善し、より関連性の高い項目を推奨する。
論文 参考訳(メタデータ) (2024-05-31T14:50:53Z) - The MovieLens Beliefs Dataset: Collecting Pre-Choice Data for Online Recommender Systems [0.0]
本稿では,未経験項目に対するユーザの信念を収集する手法を提案する。
提案手法はMovieLensプラットフォーム上で実装され,ユーザ評価,信念,監視されたレコメンデーションを組み合わせた豊富なデータセットが得られた。
論文 参考訳(メタデータ) (2024-05-17T19:06:06Z) - Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation [9.497148303350697]
本稿では,LCMに基づくデータアノテーションの適用を拡大し,既存のデータセットの品質を向上させるケーススタディを提案する。
具体的には、連鎖や多数決のようなアプローチを利用して、人間のアノテーションを模倣し、Multi-Newsデータセットから無関係な文書を分類する。
論文 参考訳(メタデータ) (2024-04-15T11:36:10Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Impression-Aware Recommender Systems [53.48892326556546]
本稿ではインプレッションを用いたレコメンデーションシステムに関する体系的な文献レビューを行う。
本稿では,印象型レコメンデーションシステムと,印象型レコメンデーションシステムという,パーソナライズされたレコメンデーションのための新しいパラダイムを論じる。
論文 参考訳(メタデータ) (2023-08-15T16:16:02Z) - Recommendation Unlearning via Matrix Correction [17.457533987238975]
本稿では,非学習を推奨するためのインタラクション・マッピング・マトリクス補正(IMCorrect)手法を提案する。
IMCorrectは完全性、実用性、効率性が優れており、多くのレコメンデーションアンラーニングシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-29T11:36:38Z) - Bandit Data-Driven Optimization [62.01362535014316]
機械学習パイプラインが設定で有用になるためには、克服しなければならない大きな問題点が4つある。
これらの問題点に対処する最初の反復予測記述フレームワークであるBanditデータ駆動最適化を導入する。
本稿では,このフレームワークの新しいアルゴリズム PROOF を提案する。
論文 参考訳(メタデータ) (2020-08-26T17:50:49Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。