論文の概要: Testing Deep Learning Recommender Systems Models on Synthetic GAN-Generated Datasets
- arxiv url: http://arxiv.org/abs/2410.17651v2
- Date: Thu, 24 Oct 2024 20:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 12:02:07.609002
- Title: Testing Deep Learning Recommender Systems Models on Synthetic GAN-Generated Datasets
- Title(参考訳): 合成GAN生成データセットを用いたディープラーニングレコメンダシステムモデルの検証
- Authors: Jesús Bobadilla, Abraham Gutiérrez,
- Abstract要約: GANRS(Generative Adversarial Networks for Recommender Systems)は、協調フィルタリングレコメンデーションシステムのためのデータセットを生成する。
我々は、ソースとして3つの異なる実データから複数の合成データセットを作成することにより、GANRS法を検証した。
また、比較性能とGANRS法の両方をテストするために、6つの最先端協調フィルタリング深層学習モデルを選択した。
- 参考スコア(独自算出の注目度): 0.27624021966289597
- License:
- Abstract: The published method Generative Adversarial Networks for Recommender Systems (GANRS) allows generating data sets for collaborative filtering recommendation systems. The GANRS source code is available along with a representative set of generated datasets. We have tested the GANRS method by creating multiple synthetic datasets from three different real datasets taken as a source. Experiments include variations in the number of users in the synthetic datasets, as well as a different number of samples. We have also selected six state-of-the-art collaborative filtering deep learning models to test both their comparative performance and the GANRS method. The results show a consistent behavior of the generated datasets compared to the source ones; particularly, in the obtained values and trends of the precision and recall quality measures. The tested deep learning models have also performed as expected on all synthetic datasets, making it possible to compare the results with those obtained from the real source data. Future work is proposed, including different cold start scenarios, unbalanced data, and demographic fairness.
- Abstract(参考訳): GANRS(Generative Adversarial Networks for Recommender Systems)は、協調フィルタリングレコメンデーションシステムのためのデータセットを生成する。
GANRSソースコードは、生成されたデータセットの代表セットとともに利用可能である。
我々は、ソースとして3つの異なる実データから複数の合成データセットを作成することにより、GANRS法を検証した。
実験には、合成データセットのユーザ数の変化や、サンプルの数の変化が含まれる。
また、比較性能とGANRS法の両方をテストするために、6つの最先端協調フィルタリング深層学習モデルを選択した。
その結果、生成したデータセットは、ソースデータと比較して一貫した振る舞いを示し、特に、得られた値と、精度とリコール品質の指標の傾向を示す。
テストされたディープラーニングモデルは、すべての合成データセットで期待どおりに実行されており、実際のソースデータから得られた結果と比較することが可能である。
さまざまなコールドスタートシナリオ、バランスの取れていないデータ、人口統計の公平性など、今後の作業が提案されている。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - FuseGen: PLM Fusion for Data-generation based Zero-shot Learning [18.51772808242954]
FuseGenは、新しいデータ生成ベースのゼロショット学習フレームワークである。
合成データセットからのサブセット選択のための新しい基準を導入する。
選択されたサブセットは、各PLMに対してコンテキスト内フィードバックを提供し、データセットの品質を向上する。
論文 参考訳(メタデータ) (2024-06-18T11:55:05Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Creating Synthetic Datasets for Collaborative Filtering Recommender
Systems using Generative Adversarial Networks [1.290382979353427]
機械学習における研究と教育には、必要なトレーニング、検証、テストタスクを処理するために、多様な、代表的でオープンなデータセットが必要です。
この研究の多様性を養うためには、既存のデータセットを合成データセットで補強する必要がある。
本稿では,協調フィルタリングデータセットを生成するGAN(Generative Adversarial Network)に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T14:23:27Z) - Distributed Traffic Synthesis and Classification in Edge Networks: A
Federated Self-supervised Learning Approach [83.2160310392168]
本稿では,多数の異種データセット上での自動トラフィック解析と合成を支援するFS-GANを提案する。
FS-GANは複数の分散ジェネレーティブ・アドバイサル・ネットワーク(GAN)から構成される
FS-GANは未知のサービスのデータを分類し、未知のタイプのトラフィック分布をキャプチャする合成サンプルを作成する。
論文 参考訳(メタデータ) (2023-02-01T03:23:11Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Lessons Learned from the Training of GANs on Artificial Datasets [0.0]
GAN(Generative Adversarial Networks)は,近年,現実的な画像の合成において大きな進歩を遂げている。
GANは不適合や過度に適合する傾向があり、分析が困難で制約を受ける。
無限に多くのサンプルがあり、実際のデータ分布は単純である人工データセットでトレーニングする。
GANのトレーニング混合物はネットワークの深さや幅を増大させるよりもパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2020-07-13T14:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。