論文の概要: GTV: Generating Tabular Data via Vertical Federated Learning
- arxiv url: http://arxiv.org/abs/2302.01706v1
- Date: Fri, 3 Feb 2023 13:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 16:29:15.149854
- Title: GTV: Generating Tabular Data via Vertical Federated Learning
- Title(参考訳): GTV:垂直的フェデレーション学習による語彙データ生成
- Authors: Zilong Zhao, Han Wu, Aad Van Moorsel and Lydia Y. Chen
- Abstract要約: 我々はGAN(Generative Adversarial Networks)のためのVFLフレームワークであるGTVを提案する。
GTVは、プライバシ保存方式でトレーニングデータにアクセスするためのジェネレータと識別器のためのユニークな分散トレーニングアーキテクチャを提案する。
その結果,GTV は集中型 GAN アルゴリズムで生成したデータに匹敵する高忠実な合成データを連続的に生成できることがわかった。
- 参考スコア(独自算出の注目度): 20.683314367860532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Adversarial Networks (GANs) have achieved state-of-the-art results
in tabular data synthesis, under the presumption of direct accessible training
data. Vertical Federated Learning (VFL) is a paradigm which allows to
distributedly train machine learning model with clients possessing unique
features pertaining to the same individuals, where the tabular data learning is
the primary use case. However, it is unknown if tabular GANs can be learned in
VFL. Demand for secure data transfer among clients and GAN during training and
data synthesizing poses extra challenge. Conditional vector for tabular GANs is
a valuable tool to control specific features of generated data. But it contains
sensitive information from real data - risking privacy guarantees. In this
paper, we propose GTV, a VFL framework for tabular GANs, whose key components
are generator, discriminator and the conditional vector. GTV proposes an unique
distributed training architecture for generator and discriminator to access
training data in a privacy-preserving manner. To accommodate conditional vector
into training without privacy leakage, GTV designs a mechanism
training-with-shuffling to ensure that no party can reconstruct training data
with conditional vector. We evaluate the effectiveness of GTV in terms of
synthetic data quality, and overall training scalability. Results show that GTV
can consistently generate high-fidelity synthetic tabular data of comparable
quality to that generated by centralized GAN algorithm. The difference on
machine learning utility can be as low as to 2.7%, even under extremely
imbalanced data distributions across clients and different number of clients.
- Abstract(参考訳): Generative Adversarial Networks (GANs) は、直接アクセス可能なトレーニングデータの推定の下で、表形式のデータ合成において最先端の結果を得た。
垂直フェデレーション学習(vertical federated learning, vfl)は、テーブル型データ学習が主なユースケースである同じ個人に関連するユニークな特徴を持つクライアントで、マシンラーニングモデルを分散的にトレーニングするパラダイムである。
しかし、表状のGANがVFLで学べるかどうかは不明である。
トレーニングとデータ合成におけるクライアントとGAN間のセキュアなデータ転送の要求は、さらなる課題となる。
表型GANの条件ベクトルは、生成されたデータの特定の特徴を制御する貴重なツールである。
しかし、それは実際のデータからの機密情報を含んでいる。
本稿では,生成器,識別器,条件ベクトルを主成分とする表型GANのためのVFLフレームワークであるGTVを提案する。
GTVは、プライバシ保存方式でトレーニングデータにアクセスするためのジェネレータと識別器のためのユニークな分散トレーニングアーキテクチャを提案する。
条件ベクトルをプライバシリークのないトレーニングに適合させるため、GTVは条件ベクトルでトレーニングデータを再構成できないようにトレーニング付きシャッフル機構を設計する。
我々はGTVの有効性を,合成データ品質と総合訓練のスケーラビリティの観点から評価した。
その結果,GTV は集中型 GAN アルゴリズムと同等品質の高忠実な合成表データを生成することができることがわかった。
機械学習ユーティリティの違いは、クライアント間の極めて不均衡なデータ分散と異なるクライアント数の下でも、最大2.7%まで小さくすることができる。
関連論文リスト
- An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - Taming Gradient Variance in Federated Learning with Networked Control
Variates [5.424502283356168]
機械学習に対する分散型アプローチであるフェデレーション学習は、広範な通信オーバーヘッドなどの大きな課題に直面している。
フェデレートラーニングのための新しいネットワーク制御変数(FedNCV)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T07:32:52Z) - PFL-GAN: When Client Heterogeneity Meets Generative Models in
Personalized Federated Learning [55.930403371398114]
パーソナライズドラーニング(PFL)のための新しいGAN(Generative Adversarial Network)の共有と集約戦略を提案する。
PFL-GANは、異なるシナリオにおけるクライアントの不均一性に対処する。より具体的には、まずクライアント間の類似性を学び、次に重み付けされた協調データアグリゲーションを開発する。
いくつかのよく知られたデータセットに対する厳密な実験による実験結果は、PFL-GANの有効性を示している。
論文 参考訳(メタデータ) (2023-08-23T22:38:35Z) - Distributed Traffic Synthesis and Classification in Edge Networks: A
Federated Self-supervised Learning Approach [83.2160310392168]
本稿では,多数の異種データセット上での自動トラフィック解析と合成を支援するFS-GANを提案する。
FS-GANは複数の分散ジェネレーティブ・アドバイサル・ネットワーク(GAN)から構成される
FS-GANは未知のサービスのデータを分類し、未知のタイプのトラフィック分布をキャプチャする合成サンプルを作成する。
論文 参考訳(メタデータ) (2023-02-01T03:23:11Z) - Fair and efficient contribution valuation for vertical federated
learning [49.50442779626123]
フェデレートラーニング(Federated Learning)は、データを共有することなく、分散データソース上で機械学習モデルをトレーニングするための一般的な技術である。
シェープリー値(Shapley value, SV)は、協調ゲーム理論から派生した、証明可能なフェアコントリビューション評価指標である。
本稿では,SVに基づく垂直結合シェープ値(VerFedSV)と呼ばれるコントリビューション評価指標を提案する。
論文 参考訳(メタデータ) (2022-01-07T19:57:15Z) - Fed-TGAN: Federated Learning Framework for Synthesizing Tabular Data [8.014848609114154]
我々は,タブラルガンのための最初のフェデレート学習フレームワークであるFed-TGANを提案する。
非同一人物の複雑なGANを効果的に学習するために、Fed-TGANは2つの新しい特徴を設計する。
その結果,Fed-TGANはエポックあたりのトレーニング時間を最大200%まで加速することがわかった。
論文 参考訳(メタデータ) (2021-08-18T01:47:36Z) - FedH2L: Federated Learning with Model and Statistical Heterogeneity [75.61234545520611]
フェデレートラーニング(FL)は、分散参加者が個々のデータのプライバシを犠牲にすることなく、強力なグローバルモデルを集合的に学習することを可能にする。
我々はFedH2Lを導入し、これはモデルアーキテクチャに非依存であり、参加者間で異なるデータ分散に対して堅牢である。
パラメータや勾配を共有するアプローチとは対照的に、FedH2Lは相互蒸留に依存し、参加者間で共有シードセットの後方のみを分散的に交換する。
論文 参考訳(メタデータ) (2021-01-27T10:10:18Z) - Privacy-Preserving Asynchronous Federated Learning Algorithms for
Multi-Party Vertically Collaborative Learning [151.47900584193025]
本稿では,非同期フェデレーションSGD(AFSGD-VP)アルゴリズムとその垂直分割データ上でのSVRGおよびSAGA変種を提案する。
我々の知る限り、AFSGD-VPとそのSVRGおよびSAGAの変種は、垂直に分割されたデータのための最初の非同期フェデレーション学習アルゴリズムである。
論文 参考訳(メタデータ) (2020-08-14T08:08:15Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。