Fugu-MT 論文翻訳(概要): Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems

論文の概要: Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems

arxiv url: http://arxiv.org/abs/2311.03488v4
Date: Wed, 19 Jun 2024 06:23:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-22 06:27:34.396343
Title: Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems
Title（参考訳）: プライバシーに敏感なレコメンダシステムのためのマルチリゾリューション拡散
Authors: Derek Lilienthal, Paul Mello, Magdalini Eirinaki, Stas Tiomkin,
Abstract要約: Score-based Diffusion Recommendation Module (SDRM)を導入し、高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。 SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。提案手法は,Recall@kで平均4.30%,NDCG@kで平均4.65%向上した。
参考スコア（独自算出の注目度）: 2.812395851874055
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While recommender systems have become an integral component of the Web experience, their heavy reliance on user data raises privacy and security concerns. Substituting user data with synthetic data can address these concerns, but accurately replicating these real-world datasets has been a notoriously challenging problem. Recent advancements in generative AI have demonstrated the impressive capabilities of diffusion models in generating realistic data across various domains. In this work we introduce a Score-based Diffusion Recommendation Module (SDRM), which captures the intricate patterns of real-world datasets required for training highly accurate recommender systems. SDRM allows for the generation of synthetic data that can replace existing datasets to preserve user privacy, or augment existing datasets to address excessive data sparsity. Our method outperforms competing baselines such as generative adversarial networks, variational autoencoders, and recently proposed diffusion models in synthesizing various datasets to replace or augment the original data by an average improvement of 4.30% in Recall@k and 4.65% in NDCG@k.
Abstract（参考訳）: 推奨システムはWebエクスペリエンスの不可欠なコンポーネントになっているが、ユーザデータへの依存度が高いため、プライバシやセキュリティ上の懸念が高まる。ユーザデータを合成データで置換することは、これらの懸念に対処できるが、これらの現実世界のデータセットを正確に複製することは、非常に難しい問題だった。生成AIの最近の進歩は、様々な領域にわたる現実的なデータを生成するための拡散モデルの印象的な能力を示している。本研究では,ScoreベースのDiffusion Recommendation Module (SDRM)を導入し,高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。 SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。提案手法は,Recall@kで平均4.30%,NDCG@kで平均4.65%向上した。

関連論文リスト

Studying the Role of Synthetic Data for Machine Learning-based Wireless Networks Traffic Forecasting [1.1699027359021665]
本稿では,大規模Wi-Fi展開のための一階自動回帰雑音統計量に基づく合成データ生成手法を提案する。実験結果から, 実データを用いて得られた10～15項目のうち, 平均絶対誤差(MAE)値が得られた。一般化が必要な場合、合成データ学習モデルは、実データ学習ベースラインと比較して、予測精度を最大50%向上させる。
論文参考訳（メタデータ） (2026-01-12T15:27:55Z)
How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。 Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文参考訳（メタデータ） (2025-12-02T21:14:39Z)
Generative Data Refinement: Just Ask for Better Data [19.774236070314963]
トレーニングデータセットは、新たなデータがWeb上でインデックスされるレートよりも速く成長する。公開インデックス化されていないユーザ生成コンテンツとして、さらに多くのデータが存在しているが、そのようなデータの導入にはかなりのリスクが伴う。我々は、事前訓練された生成モデルを使用して、望ましくないコンテンツを持つデータセットを洗練されたデータセットに変換するためのフレームワーク、生成データ精細化(GDR)を紹介する。
論文参考訳（メタデータ） (2025-09-10T14:49:12Z)
Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.57846442477106]
本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。 CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文参考訳（メタデータ） (2025-08-03T13:15:52Z)
Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。 FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文参考訳（メタデータ） (2025-04-27T04:26:02Z)
AugGen: Synthetic Augmentation Can Improve Discriminative Models [14.680260279598045]
合成データ生成は、外部データセットや事前訓練されたモデルに代わる有望な代替手段を提供する。本稿では,自己完結型合成拡張技術であるAugGenを紹介する。以上の結果から,慎重に統合された合成データは,プライバシー制約を緩和し,顔認識における識別性能を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2025-03-14T16:10:21Z)
Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文参考訳（メタデータ） (2024-11-04T09:51:10Z)
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。 RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文参考訳（メタデータ） (2024-06-20T22:53:09Z)
Dataset Regeneration for Sequential Recommendation [69.93516846106701]
DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
論文参考訳（メタデータ） (2024-05-28T03:45:34Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Differentially Private Data Generation with Missing Data [25.242190235853595]
我々は、差分プライバシー(DP)合成データの問題点を、欠落した値で定式化する。本稿では,合成データの有効性を大幅に向上させる3つの効果的な適応戦略を提案する。全体として、この研究は、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。
論文参考訳（メタデータ） (2023-10-17T19:41:54Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文参考訳（メタデータ） (2022-10-24T08:13:47Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
HydraGAN A Multi-head, Multi-objective Approach to Synthetic Data Generation [8.260059020010454]
我々はHydraGANを導入する。HydraGANは、複数のジェネレータと識別エージェントをシステムに導入する合成データ生成の新しいアプローチである。我々は,HydraGANがデータリアリズムの最大化,モデル精度の最大化,再識別リスクの最小化という複数の基準で,3つのデータセットのベースライン手法よりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-13T02:19:11Z)
Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文参考訳（メタデータ） (2021-09-12T15:51:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。