論文の概要: Creating Synthetic Datasets for Collaborative Filtering Recommender
Systems using Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2303.01297v1
- Date: Thu, 2 Mar 2023 14:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:02:50.930818
- Title: Creating Synthetic Datasets for Collaborative Filtering Recommender
Systems using Generative Adversarial Networks
- Title(参考訳): 生成逆数ネットワークを用いた協調フィルタリングレコメンダシステムのための合成データセットの作成
- Authors: Jes\'us Bobadilla and Abraham Guti\'errez and Raciel Yera and Luis
Mart\'inez
- Abstract要約: 機械学習における研究と教育には、必要なトレーニング、検証、テストタスクを処理するために、多様な、代表的でオープンなデータセットが必要です。
この研究の多様性を養うためには、既存のデータセットを合成データセットで補強する必要がある。
本稿では,協調フィルタリングデータセットを生成するGAN(Generative Adversarial Network)に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 1.290382979353427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research and education in machine learning needs diverse, representative, and
open datasets that contain sufficient samples to handle the necessary training,
validation, and testing tasks. Currently, the Recommender Systems area includes
a large number of subfields in which accuracy and beyond accuracy quality
measures are continuously improved. To feed this research variety, it is
necessary and convenient to reinforce the existing datasets with synthetic
ones. This paper proposes a Generative Adversarial Network (GAN)-based method
to generate collaborative filtering datasets in a parameterized way, by
selecting their preferred number of users, items, samples, and stochastic
variability. This parameterization cannot be made using regular GANs. Our GAN
model is fed with dense, short, and continuous embedding representations of
items and users, instead of sparse, large, and discrete vectors, to make an
accurate and quick learning, compared to the traditional approach based on
large and sparse input vectors. The proposed architecture includes a DeepMF
model to extract the dense user and item embeddings, as well as a clustering
process to convert from the dense GAN generated samples to the discrete and
sparse ones, necessary to create each required synthetic dataset. The results
of three different source datasets show adequate distributions and expected
quality values and evolutions on the generated datasets compared to the source
ones. Synthetic datasets and source codes are available to researchers.
- Abstract(参考訳): 機械学習の研究と教育には、必要なトレーニング、検証、テストタスクを処理するのに十分なサンプルを含む、多様で代表的でオープンなデータセットが必要である。
現在、Recommender Systemsエリアには多数のサブフィールドが含まれており、精度と精度以上の品質対策が継続的に改善されている。
この研究の多様性を養うには、既存のデータセットを合成データセットで強化する必要がある。
本稿では,ユーザ数,アイテム数,サンプル数,確率的変動量を選択することにより,協調フィルタリングデータセットをパラメータ化された方法で生成する生成型逆ネットワーク(gan)ベースの手法を提案する。
このパラメータ化は通常のGANではできない。
我々のGANモデルは、大小、大小、離散的なベクトルではなく、アイテムとユーザの密集、短小、連続的な埋め込み表現で供給され、大小の入力ベクトルに基づく従来のアプローチと比較して、正確で迅速な学習を行う。
提案アーキテクチャは、高密度なユーザとアイテムの埋め込みを抽出するDeepMFモデルと、高密度なGAN生成したサンプルから、必要な合成データセットを作成するために必要な離散かつスパースなデータセットに変換するクラスタリングプロセスを含む。
3つの異なるソースデータセットの結果は、生成されたデータセットに対して、適切な分布と期待される品質値と進化を示している。
合成データセットとソースコードは研究者が利用できる。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Testing Deep Learning Recommender Systems Models on Synthetic GAN-Generated Datasets [0.27624021966289597]
GANRS(Generative Adversarial Networks for Recommender Systems)は、協調フィルタリングレコメンデーションシステムのためのデータセットを生成する。
我々は、ソースとして3つの異なる実データから複数の合成データセットを作成することにより、GANRS法を検証した。
また、比較性能とGANRS法の両方をテストするために、6つの最先端協調フィルタリング深層学習モデルを選択した。
論文 参考訳(メタデータ) (2024-10-23T08:09:48Z) - Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Quality-Diversity Generative Sampling for Learning with Synthetic Data [18.642540152362237]
生成モデルは、合成トレーニングデータセットを作成することによって、実際のデータソースのサロゲートとして機能する。
本研究では,QDGS(Quality-diversity Generative sample)を提案する。
論文 参考訳(メタデータ) (2023-12-22T01:43:27Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Distributed Traffic Synthesis and Classification in Edge Networks: A
Federated Self-supervised Learning Approach [83.2160310392168]
本稿では,多数の異種データセット上での自動トラフィック解析と合成を支援するFS-GANを提案する。
FS-GANは複数の分散ジェネレーティブ・アドバイサル・ネットワーク(GAN)から構成される
FS-GANは未知のサービスのデータを分類し、未知のタイプのトラフィック分布をキャプチャする合成サンプルを作成する。
論文 参考訳(メタデータ) (2023-02-01T03:23:11Z) - Deep Variational Models for Collaborative Filtering-based Recommender
Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。
提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。
提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-27T08:59:39Z) - Differential-Critic GAN: Generating What You Want by a Cue of
Preferences [34.25181656518662]
本稿では,ユーザ要求データの分布を学習するためのディファレンシャル・クリティカル・ジェネレーティブ・アドバイザリ・ネットワーク(DiCGAN)を提案する。
DiCGANは、ユーザの期待に応えて望まれるデータを生成し、望まれる特性を持つ生物製品の設計を支援する。
論文 参考訳(メタデータ) (2021-07-14T13:44:07Z) - SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。
我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。
私たちはこの仕事に4つの重要な貢献をしています。
論文 参考訳(メタデータ) (2020-09-20T16:36:25Z) - Lessons Learned from the Training of GANs on Artificial Datasets [0.0]
GAN(Generative Adversarial Networks)は,近年,現実的な画像の合成において大きな進歩を遂げている。
GANは不適合や過度に適合する傾向があり、分析が困難で制約を受ける。
無限に多くのサンプルがあり、実際のデータ分布は単純である人工データセットでトレーニングする。
GANのトレーニング混合物はネットワークの深さや幅を増大させるよりもパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2020-07-13T14:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。