論文の概要: Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems
- arxiv url: http://arxiv.org/abs/2311.03488v4
- Date: Wed, 19 Jun 2024 06:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 06:27:34.396343
- Title: Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems
- Title(参考訳): プライバシーに敏感なレコメンダシステムのためのマルチリゾリューション拡散
- Authors: Derek Lilienthal, Paul Mello, Magdalini Eirinaki, Stas Tiomkin,
- Abstract要約: Score-based Diffusion Recommendation Module (SDRM)を導入し、高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。
SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。
提案手法は,Recall@kで平均4.30%,NDCG@kで平均4.65%向上した。
- 参考スコア(独自算出の注目度): 2.812395851874055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recommender systems have become an integral component of the Web experience, their heavy reliance on user data raises privacy and security concerns. Substituting user data with synthetic data can address these concerns, but accurately replicating these real-world datasets has been a notoriously challenging problem. Recent advancements in generative AI have demonstrated the impressive capabilities of diffusion models in generating realistic data across various domains. In this work we introduce a Score-based Diffusion Recommendation Module (SDRM), which captures the intricate patterns of real-world datasets required for training highly accurate recommender systems. SDRM allows for the generation of synthetic data that can replace existing datasets to preserve user privacy, or augment existing datasets to address excessive data sparsity. Our method outperforms competing baselines such as generative adversarial networks, variational autoencoders, and recently proposed diffusion models in synthesizing various datasets to replace or augment the original data by an average improvement of 4.30% in Recall@k and 4.65% in NDCG@k.
- Abstract(参考訳): 推奨システムはWebエクスペリエンスの不可欠なコンポーネントになっているが、ユーザデータへの依存度が高いため、プライバシやセキュリティ上の懸念が高まる。
ユーザデータを合成データで置換することは、これらの懸念に対処できるが、これらの現実世界のデータセットを正確に複製することは、非常に難しい問題だった。
生成AIの最近の進歩は、様々な領域にわたる現実的なデータを生成するための拡散モデルの印象的な能力を示している。
本研究では,ScoreベースのDiffusion Recommendation Module (SDRM)を導入し,高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。
SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。
提案手法は,Recall@kで平均4.30%,NDCG@kで平均4.65%向上した。
関連論文リスト
- Expansive Synthesis: Generating Large-Scale Datasets from Minimal Samples [13.053285552524052]
本稿では,最小限のサンプルから高忠実度データセットを生成する革新的な拡張合成モデルを提案する。
生成したデータセットの分類器をトレーニングし,より大規模でオリジナルなデータセットでトレーニングされたパフォーマンストリバーサを比較して,拡張的合成を検証する。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data [10.217822818544475]
大規模言語モデル(LLM)を用いた合成(語彙)データを生成するフレームワークを提案する。
提案手法は, サンプルサイズが小さい一般的なシナリオにおいて, 合成データ生成の品質を著しく向上させる。
以上の結果から,本モデルは下流タスクにおける高品質な合成データを生成する上で,実際のデータのプライバシを維持しつつ,いくつかの最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-15T06:26:17Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Differentially Private Data Generation with Missing Data [25.242190235853595]
我々は、差分プライバシー(DP)合成データの問題点を、欠落した値で定式化する。
本稿では,合成データの有効性を大幅に向上させる3つの効果的な適応戦略を提案する。
全体として、この研究は、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。
論文 参考訳(メタデータ) (2023-10-17T19:41:54Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - HydraGAN A Multi-head, Multi-objective Approach to Synthetic Data
Generation [8.260059020010454]
我々はHydraGANを導入する。HydraGANは、複数のジェネレータと識別エージェントをシステムに導入する合成データ生成の新しいアプローチである。
我々は,HydraGANがデータリアリズムの最大化,モデル精度の最大化,再識別リスクの最小化という複数の基準で,3つのデータセットのベースライン手法よりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-13T02:19:11Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。