論文の概要: FedSyn: Synthetic Data Generation using Federated Learning
- arxiv url: http://arxiv.org/abs/2203.05931v1
- Date: Fri, 11 Mar 2022 14:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 15:32:23.186491
- Title: FedSyn: Synthetic Data Generation using Federated Learning
- Title(参考訳): fedsyn: フェデレーション学習を用いた合成データ生成
- Authors: Monik Raj Behera, Sudhir Upadhyay, Suresh Shetty, Sudha Priyadarshini,
Palka Patel, Ker Farn Lee
- Abstract要約: 現在の機械学習のプラクティスは、既存のデータセットから合成データを生成するために利用することができる。
データプライバシは、一部の機関が満足できないかもしれないことを懸念している。
本稿では,合成データを生成する新しい手法であるFedSynを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Deep Learning algorithms continue to evolve and become more sophisticated,
they require massive datasets for model training and efficacy of models. Some
of those data requirements can be met with the help of existing datasets within
the organizations. Current Machine Learning practices can be leveraged to
generate synthetic data from an existing dataset. Further, it is well
established that diversity in generated synthetic data relies on (and is
perhaps limited by) statistical properties of available dataset within a single
organization or entity. The more diverse an existing dataset is, the more
expressive and generic synthetic data can be. However, given the scarcity of
underlying data, it is challenging to collate big data in one organization. The
diverse, non-overlapping dataset across distinct organizations provides an
opportunity for them to contribute their limited distinct data to a larger pool
that can be leveraged to further synthesize. Unfortunately, this raises data
privacy concerns that some institutions may not be comfortable with.
This paper proposes a novel approach to generate synthetic data - FedSyn.
FedSyn is a collaborative, privacy preserving approach to generate synthetic
data among multiple participants in a federated and collaborative network.
FedSyn creates a synthetic data generation model, which can generate synthetic
data consisting of statistical distribution of almost all the participants in
the network. FedSyn does not require access to the data of an individual
participant, hence protecting the privacy of participant's data. The proposed
technique in this paper leverages federated machine learning and generative
adversarial network (GAN) as neural network architecture for synthetic data
generation. The proposed method can be extended to many machine learning
problem classes in finance, health, governance, technology and many more.
- Abstract(参考訳): ディープラーニングアルゴリズムは進化を続け、より洗練されたものにするために、モデルのトレーニングとモデルの有効性のために大量のデータセットを必要とする。
これらのデータ要件のいくつかは、組織内の既存のデータセットの助けを借りることができます。
現在の機械学習のプラクティスは、既存のデータセットから合成データを生成するために利用することができる。
さらに、生成した合成データの多様性は、単一の組織またはエンティティ内で利用可能なデータセットの統計的性質に依存する(そしておそらく制限される)ことがよく確立されている。
既存のデータセットが多様であれば多いほど、より表現豊かで汎用的な合成データが得られる。
しかし、基盤となるデータの不足を考えると、ビッグデータをひとつの組織にまとめることは難しい。
異なる組織にまたがる多様で重複しないデータセットは、彼らの限られた異なるデータをより大きなプールに寄贈し、さらなる合成に活用する機会を提供する。
残念なことに、一部の機関はデータプライバシーの懸念を抱いている。
本稿では,合成データを生成する新しい手法であるFedSynを提案する。
FedSynは、フェデレーションとコラボレーティブなネットワークにおいて、複数の参加者間で合成データを生成するための、協調的でプライバシー保護のアプローチである。
fedsynは合成データ生成モデルを作成し、ネットワーク内のほぼすべての参加者の統計分布からなる合成データを生成することができる。
FedSynは個々の参加者のデータへのアクセスを必要としないため、参加者のデータのプライバシーを保護する。
本稿では,合成データ生成のためのニューラルネットワークアーキテクチャとして,フェデレーション機械学習とGANを利用する手法を提案する。
提案手法は、金融、健康、ガバナンス、テクノロジーなど、多くの機械学習問題クラスに拡張することができる。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Generative AI like ChatGPT in Blockchain Federated Learning: use cases, opportunities and future [4.497001527881303]
本研究は、フェデレーション学習における生成AIの潜在的な統合について検討する。
GAN(generative adversarial Network)とVAE(variantal autoencoder)
合成データの生成は、限られたデータ可用性に関連する課題に、フェデレートされた学習を支援する。
論文 参考訳(メタデータ) (2024-07-25T19:43:49Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。