Fugu-MT 論文翻訳(概要): Dataset Regeneration for Sequential Recommendation

論文の概要: Dataset Regeneration for Sequential Recommendation

arxiv url: http://arxiv.org/abs/2405.17795v3
Date: Wed, 11 Sep 2024 02:07:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 22:51:54.853633
Title: Dataset Regeneration for Sequential Recommendation
Title（参考訳）: シーケンスレコメンデーションのためのデータセット再生
Authors: Mingjia Yin, Hao Wang, Wei Guo, Yong Liu, Suojuan Zhang, Sirui Zhao, Defu Lian, Enhong Chen,
Abstract要約: DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
参考スコア（独自算出の注目度）: 69.93516846106701
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The sequential recommender (SR) system is a crucial component of modern recommender systems, as it aims to capture the evolving preferences of users. Significant efforts have been made to enhance the capabilities of SR systems. These methods typically follow the model-centric paradigm, which involves developing effective models based on fixed datasets. However, this approach often overlooks potential quality issues and flaws inherent in the data. Driven by the potential of data-centric AI, we propose a novel data-centric paradigm for developing an ideal training dataset using a model-agnostic dataset regeneration framework called DR4SR. This framework enables the regeneration of a dataset with exceptional cross-architecture generalizability. Additionally, we introduce the DR4SR+ framework, which incorporates a model-aware dataset personalizer to tailor the regenerated dataset specifically for a target model. To demonstrate the effectiveness of the data-centric paradigm, we integrate our framework with various model-centric methods and observe significant performance improvements across four widely adopted datasets. Furthermore, we conduct in-depth analyses to explore the potential of the data-centric paradigm and provide valuable insights. The code can be found at https://github.com/USTC-StarTeam/DR4SR.
Abstract（参考訳）: シーケンシャルレコメンダシステム(SR)は、ユーザの進化する好みを捉えることを目的として、現代のレコメンダシステムにおいて重要なコンポーネントである。 SRシステムの能力を高めるために重要な努力がなされている。これらの手法は通常、固定データセットに基づいた効果的なモデルを開発することを含むモデル中心のパラダイムに従う。しかし、このアプローチは、データに固有の潜在的な品質問題や欠陥をしばしば見落としている。データ中心型AIの可能性により,DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて,理想的なトレーニングデータセットを開発するための,新たなデータ中心型パラダイムを提案する。このフレームワークは、例外的なクロスアーキテクチャの一般化性を備えたデータセットの再生を可能にする。さらに、DR4SR+フレームワークを導入し、モデル対応のデータセットパーソナライザを組み込んで、ターゲットモデルに特化して再生データセットを調整する。データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。さらに、データ中心パラダイムの可能性を探るため、詳細な分析を行い、貴重な洞察を提供する。コードはhttps://github.com/USTC-StarTeam/DR4SRで見ることができる。

関連論文リスト

Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control [82.30868101940068]
本稿では,外部データや教師モデルに依存することなく,モデルが自身のパフォーマンスをブートストラップするパラダイムを提案する。我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化景観を円滑にしていることを示している。より小さなモデルであっても利点があり、弱いモデルはより強力なモデルに対して効果的なトレーニングカリキュラムを生成することができることを示す。
論文参考訳（メタデータ） (2026-02-17T15:31:32Z)
Statistical Comparative Analysis of Semantic Similarities and Model Transferability Across Datasets for Short Answer Grading [3.7723788828505125]
本研究では、確立されたデータセットに基づいて訓練された最先端(SOTA)モデルの、未探索のテキストデータセットへの転送可能性について検討する。この研究の主な目的は、SOTAモデルの潜在的な適用性と適応性に関する総合的な洞察を得ることである。
論文参考訳（メタデータ） (2025-08-19T05:45:02Z)
Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。審査員モデルの応答を正確に評価するために、外部ツールが導入される。合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文参考訳（メタデータ） (2025-04-27T15:21:59Z)
Generating Skyline Datasets for Data Science Models [11.454081868173725]
本稿では,複数のユーザ定義モデルパフォーマンス尺度を最適化することにより,データセットを検出するフレームワークであるMODisを紹介する。スカイラインデータセットを生成するための3つの実現可能なアルゴリズムを導出する。スカイラインデータ探索アルゴリズムの有効性と有効性を実験的に検証した。
論文参考訳（メタデータ） (2025-02-16T20:33:59Z)
Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文参考訳（メタデータ） (2024-11-30T10:56:30Z)
Generating Diverse Synthetic Datasets for Evaluation of Real-life Recommender Systems [0.0]
合成データセットは、機械学習モデルの評価とテストに重要である。我々は,多様かつ統計的に一貫性のある合成データセットを生成するための新しいフレームワークを開発する。このフレームワークは、最小限の摩擦で研究を容易にする無料のオープンPythonパッケージとして利用できる。
論文参考訳（メタデータ） (2024-11-27T09:53:14Z)
Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文参考訳（メタデータ） (2024-10-05T17:11:37Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems [2.812395851874055]
Score-based Diffusion Recommendation Module (SDRM)を導入し、高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。 SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。提案手法は,Recall@kで平均4.30%,NDCG@kで平均4.65%向上した。
論文参考訳（メタデータ） (2023-11-06T19:52:55Z)
TRIAGE: Characterizing and auditing training data for improved regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。 TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。 TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文参考訳（メタデータ） (2023-10-29T10:31:59Z)
Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文参考訳（メタデータ） (2023-06-12T17:56:01Z)
A Data-centric Framework for Improving Domain-specific Machine Reading Comprehension Datasets [5.673449249014538]
低品質のデータは、高スループットアプリケーションで下流の問題を引き起こす可能性がある。データ中心のアプローチでは、データセットの品質向上とモデルパフォーマンスの向上が重視される。
論文参考訳（メタデータ） (2023-04-02T08:26:38Z)
S^3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。 6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文参考訳（メタデータ） (2020-08-18T11:44:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。