論文の概要: Dataset Regeneration for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2405.17795v3
- Date: Wed, 11 Sep 2024 02:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 23:33:19.751326
- Title: Dataset Regeneration for Sequential Recommendation
- Title(参考訳): シーケンスレコメンデーションのためのデータセット再生
- Authors: Mingjia Yin, Hao Wang, Wei Guo, Yong Liu, Suojuan Zhang, Sirui Zhao, Defu Lian, Enhong Chen,
- Abstract要約: DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。
データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
- 参考スコア(独自算出の注目度): 69.93516846106701
- License:
- Abstract: The sequential recommender (SR) system is a crucial component of modern recommender systems, as it aims to capture the evolving preferences of users. Significant efforts have been made to enhance the capabilities of SR systems. These methods typically follow the model-centric paradigm, which involves developing effective models based on fixed datasets. However, this approach often overlooks potential quality issues and flaws inherent in the data. Driven by the potential of data-centric AI, we propose a novel data-centric paradigm for developing an ideal training dataset using a model-agnostic dataset regeneration framework called DR4SR. This framework enables the regeneration of a dataset with exceptional cross-architecture generalizability. Additionally, we introduce the DR4SR+ framework, which incorporates a model-aware dataset personalizer to tailor the regenerated dataset specifically for a target model. To demonstrate the effectiveness of the data-centric paradigm, we integrate our framework with various model-centric methods and observe significant performance improvements across four widely adopted datasets. Furthermore, we conduct in-depth analyses to explore the potential of the data-centric paradigm and provide valuable insights. The code can be found at https://github.com/USTC-StarTeam/DR4SR.
- Abstract(参考訳): シーケンシャルレコメンダシステム(SR)は、ユーザの進化する好みを捉えることを目的として、現代のレコメンダシステムにおいて重要なコンポーネントである。
SRシステムの能力を高めるために重要な努力がなされている。
これらの手法は通常、固定データセットに基づいた効果的なモデルを開発することを含むモデル中心のパラダイムに従う。
しかし、このアプローチは、データに固有の潜在的な品質問題や欠陥をしばしば見落としている。
データ中心型AIの可能性により,DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて,理想的なトレーニングデータセットを開発するための,新たなデータ中心型パラダイムを提案する。
このフレームワークは、例外的なクロスアーキテクチャの一般化性を備えたデータセットの再生を可能にする。
さらに、DR4SR+フレームワークを導入し、モデル対応のデータセットパーソナライザを組み込んで、ターゲットモデルに特化して再生データセットを調整する。
データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
さらに、データ中心パラダイムの可能性を探るため、詳細な分析を行い、貴重な洞察を提供する。
コードはhttps://github.com/USTC-StarTeam/DR4SRで見ることができる。
関連論文リスト
- DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems [2.812395851874055]
Score-based Diffusion Recommendation Module (SDRM)を導入し、高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。
SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。
提案手法は,Recall@kで平均4.30%,NDCG@kで平均4.65%向上した。
論文 参考訳(メタデータ) (2023-11-06T19:52:55Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - A Data-centric Framework for Improving Domain-specific Machine Reading
Comprehension Datasets [5.673449249014538]
低品質のデータは、高スループットアプリケーションで下流の問題を引き起こす可能性がある。
データ中心のアプローチでは、データセットの品質向上とモデルパフォーマンスの向上が重視される。
論文 参考訳(メタデータ) (2023-04-02T08:26:38Z) - A Case for Dataset Specific Profiling [0.9023847175654603]
データ駆動科学は、科学的な発見が、リッチで規律固有のデータセットに対する計算AIモデルの実行に依存する、新興パラダイムである。
現代的な機械学習フレームワークを使用することで、誰でも科学的応用を可能にするデータに隠された概念を明らかにする計算モデルを開発し、実行することができる。
重要で広く使われているデータセットでは、データセットに対して実行できるすべての計算モデルのパフォーマンスを計算することは、クラウドリソースの点でコストを禁ずる。
論文 参考訳(メタデータ) (2022-08-01T18:38:05Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。