論文の概要: DataRec: A Framework for Standardizing Recommendation Data Processing and Analysis
- arxiv url: http://arxiv.org/abs/2410.22972v1
- Date: Wed, 30 Oct 2024 12:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 11:30:30.577882
- Title: DataRec: A Framework for Standardizing Recommendation Data Processing and Analysis
- Title(参考訳): DataRec: 推奨データ処理と分析の標準化のためのフレームワーク
- Authors: Alberto Carlo Maria Mancino, Salvatore Bufi, Angela Di Fazio, Daniele Malitesta, Claudio Pomo, Antonio Ferrara, Tommaso Di Noia,
- Abstract要約: 我々は、レコメンデーションデータセットの使用と操作を容易にするDataRecを提案する。
様々なフォーマットで読み書きをサポートし、フィルタリングと分割技術を提供し、データ分散分析を可能にする。
これは、複数のレコメンデーションフレームワークと互換性のあるフォーマットでデータのエクスポートを可能にすることによって、データ操作に対する統一的なアプローチを奨励する。
- 参考スコア(独自算出の注目度): 10.25838775445973
- License:
- Abstract: Thanks to the great interest posed by researchers and companies, recommendation systems became a cornerstone of machine learning applications. However, concerns have arisen recently about the need for reproducibility, making it challenging to identify suitable pipelines. Several frameworks have been proposed to improve reproducibility, covering the entire process from data reading to performance evaluation. Despite this effort, these solutions often overlook the role of data management, do not promote interoperability, and neglect data analysis despite its well-known impact on recommender performance. To address these gaps, we propose DataRec, which facilitates using and manipulating recommendation datasets. DataRec supports reading and writing in various formats, offers filtering and splitting techniques, and enables data distribution analysis using well-known metrics. It encourages a unified approach to data manipulation by allowing data export in formats compatible with several recommendation frameworks.
- Abstract(参考訳): 研究者や企業から大きな関心が寄せられたため、レコメンデーションシステムは機械学習アプリケーションの基礎となった。
しかし、最近、再現性の必要性が懸念され、適切なパイプラインを特定するのが困難になった。
データ読み込みからパフォーマンス評価までのプロセス全体をカバーし、再現性を改善するためにいくつかのフレームワークが提案されている。
このような努力にもかかわらず、これらのソリューションは、しばしばデータ管理の役割を見落とし、相互運用性を促進しず、データ分析を無視する。
これらのギャップに対処するために、リコメンデーションデータセットの使用と操作を容易にするDataRecを提案する。
DataRecは様々なフォーマットで読み書きをサポートし、フィルタリングと分割技術を提供し、よく知られたメトリクスを使用したデータ分散分析を可能にする。
これは、複数のレコメンデーションフレームワークと互換性のあるフォーマットでデータのエクスポートを可能にすることによって、データ操作に対する統一的なアプローチを奨励する。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - The MovieLens Beliefs Dataset: Collecting Pre-Choice Data for Online Recommender Systems [0.0]
本稿では,未経験項目に対するユーザの信念を収集する手法を提案する。
提案手法はMovieLensプラットフォーム上で実装され,ユーザ評価,信念,監視されたレコメンデーションを組み合わせた豊富なデータセットが得られた。
論文 参考訳(メタデータ) (2024-05-17T19:06:06Z) - Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation [9.497148303350697]
本稿では,LCMに基づくデータアノテーションの適用を拡大し,既存のデータセットの品質を向上させるケーススタディを提案する。
具体的には、連鎖や多数決のようなアプローチを利用して、人間のアノテーションを模倣し、Multi-Newsデータセットから無関係な文書を分類する。
論文 参考訳(メタデータ) (2024-04-15T11:36:10Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Impression-Aware Recommender Systems [57.38537491535016]
新たなデータソースは、レコメンデーションシステムの品質を改善する新しい機会をもたらす。
研究者はインプレッションを使ってユーザーの好みを洗練させ、推奨システム研究の現在の制限を克服することができる。
本稿ではインプレッションを用いたレコメンデーションシステムに関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-08-15T16:16:02Z) - Recommendation Unlearning via Matrix Correction [17.457533987238975]
本稿では,非学習を推奨するためのインタラクション・マッピング・マトリクス補正(IMCorrect)手法を提案する。
IMCorrectは完全性、実用性、効率性が優れており、多くのレコメンデーションアンラーニングシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-29T11:36:38Z) - Bandit Data-Driven Optimization [62.01362535014316]
機械学習パイプラインが設定で有用になるためには、克服しなければならない大きな問題点が4つある。
これらの問題点に対処する最初の反復予測記述フレームワークであるBanditデータ駆動最適化を導入する。
本稿では,このフレームワークの新しいアルゴリズム PROOF を提案する。
論文 参考訳(メタデータ) (2020-08-26T17:50:49Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。