論文の概要: VFLGAN: Vertical Federated Learning-based Generative Adversarial Network for Vertically Partitioned Data Publication
- arxiv url: http://arxiv.org/abs/2404.09722v1
- Date: Mon, 15 Apr 2024 12:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:30:43.246325
- Title: VFLGAN: Vertical Federated Learning-based Generative Adversarial Network for Vertically Partitioned Data Publication
- Title(参考訳): VFLGAN: 垂直分割型データパブリケーションのための鉛直フェデレーション学習に基づく生成支援ネットワーク
- Authors: Xun Yuan, Yang Yang, Prosanta Gope, Aryan Pasikhani, Biplab Sikdar,
- Abstract要約: 本稿では,垂直分割型データパブリッシングのための垂直フェデレート学習に基づく生成広告ネットワーク,VFLGANを提案する。
VFLGANが生成した合成データセットの品質は、VertiGANが生成したデータセットの3.2倍である。
また,合成データセットによるプライバシー漏洩を推定するために,会員推定攻撃を適用した実践的な監査手法を提案する。
- 参考スコア(独自算出の注目度): 16.055684281505474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the current artificial intelligence (AI) era, the scale and quality of the dataset play a crucial role in training a high-quality AI model. However, good data is not a free lunch and is always hard to access due to privacy regulations like the General Data Protection Regulation (GDPR). A potential solution is to release a synthetic dataset with a similar distribution to that of the private dataset. Nevertheless, in some scenarios, it has been found that the attributes needed to train an AI model belong to different parties, and they cannot share the raw data for synthetic data publication due to privacy regulations. In PETS 2023, Xue et al. proposed the first generative adversary network-based model, VertiGAN, for vertically partitioned data publication. However, after thoroughly investigating, we found that VertiGAN is less effective in preserving the correlation among the attributes of different parties. This article proposes a Vertical Federated Learning-based Generative Adversarial Network, VFLGAN, for vertically partitioned data publication to address the above issues. Our experimental results show that compared with VertiGAN, VFLGAN significantly improves the quality of synthetic data. Taking the MNIST dataset as an example, the quality of the synthetic dataset generated by VFLGAN is 3.2 times better than that generated by VertiGAN w.r.t. the Fr\'echet Distance. We also designed a more efficient and effective Gaussian mechanism for the proposed VFLGAN to provide the synthetic dataset with a differential privacy guarantee. On the other hand, differential privacy only gives the upper bound of the worst-case privacy guarantee. This article also proposes a practical auditing scheme that applies membership inference attacks to estimate privacy leakage through the synthetic dataset.
- Abstract(参考訳): 現在の人工知能(AI)時代には、データセットのスケールと品質が、高品質なAIモデルのトレーニングにおいて重要な役割を果たす。
しかし、良いデータは無料のランチではなく、GDPR(General Data Protection Regulation)のようなプライバシー規制のためにアクセスするのが常に困難である。
潜在的な解決策は、プライベートデータセットと同様の分布を持つ合成データセットをリリースすることである。
それでも、いくつかのシナリオでは、AIモデルをトレーニングするために必要な属性は、異なるパーティに属しており、プライバシ規制による合成データパブリッシュの生データを共有できないことが判明している。
PETS 2023でXueらは、垂直に分割されたデータパブリッシングのための最初の生成逆ネットワークベースモデルVertiGANを提案した。
しかし, 徹底的に調査した結果, VertiGAN は, 当事者の属性間の相関性を維持する効果が低いことがわかった。
本稿では,これらの問題に対処するため,垂直に分割したデータパブリッシングのための垂直的フェデレート学習に基づく生成適応ネットワーク(VFLGAN)を提案する。
VertiGANと比較して,VFLGANは合成データの品質を著しく向上させることが示された。
MNISTデータセットを例として、VFLGANが生成した合成データセットの品質は、Fr\echet DistanceのVertiGAN w.r.t.が生成したデータセットの3.2倍である。
また,提案するVFLGANに対して,より効率的かつ効果的なガウス機構を設計し,差分プライバシー保証を備えた合成データセットを提供する。
一方、差分プライバシーは最悪の場合のプライバシー保証の上限のみを与える。
また,本論文では,合成データセットによるプライバシー漏洩を推定するために,会員推定攻撃を適用した実践的な監査手法を提案する。
関連論文リスト
- VFLGAN-TS: Vertical Federated Learning-based Generative Adversarial Networks for Publication of Vertically Partitioned Time-Series Data [16.3748400385067]
PETS 2024では、垂直分割された静的データをパブリッシュするための、最初の垂直フェデレート学習に基づく生成適応ネットワーク(VFLGAN)を導入しました。
本稿では,属性判別器と垂直連合学習のアイデアを組み合わせて合成時系列データを生成するVFLGAN-TSを提案する。
論文 参考訳(メタデータ) (2024-09-05T15:17:26Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Differentially Private Data Generation with Missing Data [25.242190235853595]
我々は、差分プライバシー(DP)合成データの問題点を、欠落した値で定式化する。
本稿では,合成データの有効性を大幅に向上させる3つの効果的な適応戦略を提案する。
全体として、この研究は、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。
論文 参考訳(メタデータ) (2023-10-17T19:41:54Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。
DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。
MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文 参考訳(メタデータ) (2020-04-21T20:00:35Z) - privGAN: Protecting GANs from membership inference attacks at low cost [5.735035463793008]
Generative Adversarial Networks (GAN)は、合成画像のリリースを、オリジナルのデータセットを公開せずにデータを共有するための実行可能なアプローチにした。
近年の研究では、GANモデルとその合成データを用いて、相手によるトレーニングセットメンバーシップを推測できることが示されている。
ここでは、ジェネレータが識別器を騙すだけでなく、メンバーシップ推論攻撃を防御するために訓練される新しいGANアーキテクチャ(privGAN)を開発する。
論文 参考訳(メタデータ) (2019-12-31T20:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。