論文の概要: Generating Diverse Synthetic Datasets for Evaluation of Real-life Recommender Systems
- arxiv url: http://arxiv.org/abs/2412.06809v1
- Date: Wed, 27 Nov 2024 09:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-15 08:00:20.925720
- Title: Generating Diverse Synthetic Datasets for Evaluation of Real-life Recommender Systems
- Title(参考訳): 実生活レコメンダシステム評価のための多元合成データセットの生成
- Authors: Miha Malenšek, Blaž Škrlj, Blaž Mramor, Jure Demšar,
- Abstract要約: 合成データセットは、機械学習モデルの評価とテストに重要である。
我々は,多様かつ統計的に一貫性のある合成データセットを生成するための新しいフレームワークを開発する。
このフレームワークは、最小限の摩擦で研究を容易にする無料のオープンPythonパッケージとして利用できる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Synthetic datasets are important for evaluating and testing machine learning models. When evaluating real-life recommender systems, high-dimensional categorical (and sparse) datasets are often considered. Unfortunately, there are not many solutions that would allow generation of artificial datasets with such characteristics. For that purpose, we developed a novel framework for generating synthetic datasets that are diverse and statistically coherent. Our framework allows for creation of datasets with controlled attributes, enabling iterative modifications to fit specific experimental needs, such as introducing complex feature interactions, feature cardinality, or specific distributions. We demonstrate the framework's utility through use cases such as benchmarking probabilistic counting algorithms, detecting algorithmic bias, and simulating AutoML searches. Unlike existing methods that either focus narrowly on specific dataset structures, or prioritize (private) data synthesis through real data, our approach provides a modular means to quickly generating completely synthetic datasets we can tailor to diverse experimental requirements. Our results show that the framework effectively isolates model behavior in unique situations and highlights its potential for significant advancements in the evaluation and development of recommender systems. The readily-available framework is available as a free open Python package to facilitate research with minimal friction.
- Abstract(参考訳): 合成データセットは、機械学習モデルの評価とテストに重要である。
実生活レコメンデータシステムを評価する際には、高次元の分類(およびスパース)データセットが考慮されることが多い。
残念ながら、そのような特徴を持つ人工データセットを生成できるソリューションは多くはない。
そこで我々は,多種多様な統計的コヒーレントな合成データセットを生成する新しいフレームワークを開発した。
我々のフレームワークは、制御された属性を持つデータセットの作成を可能にし、複雑な特徴相互作用や特徴濃度、特定の分布の導入など、特定の実験的なニーズに適合する反復的な修正を可能にします。
本稿では,確率的カウントアルゴリズムのベンチマーク,アルゴリズムバイアスの検出,AutoML検索のシミュレーションといったユースケースを通じて,フレームワークの有用性を実証する。
特定のデータセット構造に狭くフォーカスする既存の方法や、実際のデータによる(プライベートな)データ合成を優先する手法とは異なり、当社のアプローチは、さまざまな実験的要件に合わせて、完全に合成されたデータセットを迅速に生成するためのモジュラー手段を提供します。
本研究により,本フレームワークは,ユニークな状況下でのモデル動作を効果的に分離し,レコメンデータシステムの評価・開発において,その可能性を強調した。
簡単に利用できるフレームワークは、最小限の摩擦で研究を容易にする無料のオープンPythonパッケージとして利用できる。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - GenRec: A Flexible Data Generator for Recommendations [1.384948712833979]
GenRecは、現実的でよく知られた特性を示す合成ユーザ・イテム相互作用を生成するための新しいフレームワークである。
このフレームワークは潜在因子モデリングに基づく生成プロセスに基づいている。
論文 参考訳(メタデータ) (2024-07-23T15:53:17Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - Dataset Regeneration for Sequential Recommendation [69.93516846106701]
DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。
データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
論文 参考訳(メタデータ) (2024-05-28T03:45:34Z) - SynthEval: A Framework for Detailed Utility and Privacy Evaluation of Tabular Synthetic Data [3.360001542033098]
SynthEvalは、合成データのための新しいオープンソース評価フレームワークである。
特別な種類の前処理ステップを仮定することなく、分類的および数値的な属性を同等のケアで扱う。
我々のツールは統計的および機械学習技術を利用して、合成データの忠実度とプライバシー保護の整合性を包括的に評価する。
論文 参考訳(メタデータ) (2024-04-24T11:49:09Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Synthetic Benchmarks for Scientific Research in Explainable Machine
Learning [14.172740234933215]
我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。
実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。
いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。