論文の概要: Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems
- arxiv url: http://arxiv.org/abs/2311.03488v2
- Date: Tue, 21 Nov 2023 03:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 16:42:43.158834
- Title: Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems
- Title(参考訳): プライバシーに敏感なレコメンダシステムのためのマルチリゾリューション拡散
- Authors: Derek Lilienthal, Paul Mello, Magdalini Eirinaki, Stas Tiomkin
- Abstract要約: Score-based Diffusion Recommendation Module (SDRM)を導入し、高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。
SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。
提案手法は,NDCG@$k平均4.30%,NDCG@$k平均4.65%の改善により,生成逆数ネットワーク,変分オートエンコーダなどの競合するベースラインを上回り,様々なデータセットを合成・拡張する拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 3.072340427031969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recommender systems have become an integral component of the Web
experience, their heavy reliance on user data raises privacy and security
concerns. Substituting user data with synthetic data can address these
concerns, but accurately replicating these real-world datasets has been a
notoriously challenging problem. Recent advancements in generative AI have
demonstrated the impressive capabilities of diffusion models in generating
realistic data across various domains. In this work we introduce a Score-based
Diffusion Recommendation Module (SDRM), which captures the intricate patterns
of real-world datasets required for training highly accurate recommender
systems. SDRM allows for the generation of synthetic data that can replace
existing datasets to preserve user privacy, or augment existing datasets to
address excessive data sparsity. Our method outperforms competing baselines
such as generative adversarial networks, variational autoencoders, and recently
proposed diffusion models in synthesizing various datasets to replace or
augment the original data by an average improvement of 4.30% in Recall@$k$ and
4.65% in NDCG@$k$.
- Abstract(参考訳): 推奨システムはWebエクスペリエンスの不可欠なコンポーネントになっているが、ユーザデータへの依存度が高いため、プライバシやセキュリティ上の懸念が高まる。
ユーザデータを合成データで置換することは、これらの懸念に対処できますが、現実のデータセットを正確に複製することは、非常に難しい問題です。
生成AIの最近の進歩は、様々な領域にわたる現実的なデータを生成するための拡散モデルの印象的な能力を示している。
本研究では,高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャするスコアベース拡散レコメンデーションモジュール(sdrm)を提案する。
SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。
提案手法は, 生成逆数ネットワーク, 変分オートエンコーダなどの競合するベースラインよりも優れており, 様々なデータセットを合成し, 元のデータをRecall@$k$で平均4.30%, NDCG@$k$で平均4.65%改善する拡散モデルを提案する。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Dataset Regeneration for Sequential Recommendation [69.93516846106701]
DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。
データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
論文 参考訳(メタデータ) (2024-05-28T03:45:34Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Differentially Private Data Generation with Missing Data [25.242190235853595]
我々は、差分プライバシー(DP)合成データの問題点を、欠落した値で定式化する。
本稿では,合成データの有効性を大幅に向上させる3つの効果的な適応戦略を提案する。
全体として、この研究は、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。
論文 参考訳(メタデータ) (2023-10-17T19:41:54Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - HydraGAN A Multi-head, Multi-objective Approach to Synthetic Data
Generation [8.260059020010454]
我々はHydraGANを導入する。HydraGANは、複数のジェネレータと識別エージェントをシステムに導入する合成データ生成の新しいアプローチである。
我々は,HydraGANがデータリアリズムの最大化,モデル精度の最大化,再識別リスクの最小化という複数の基準で,3つのデータセットのベースライン手法よりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-13T02:19:11Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。