論文の概要: FFPDG: Fast, Fair and Private Data Generation
- arxiv url: http://arxiv.org/abs/2307.00161v1
- Date: Fri, 30 Jun 2023 22:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 17:41:36.701486
- Title: FFPDG: Fast, Fair and Private Data Generation
- Title(参考訳): FFPDG:高速で公平でプライベートなデータ生成
- Authors: Weijie Xu, Jinjin Zhao, Francis Iannacci, Bo Wang
- Abstract要約: 公正性とプライバシーは、合成データにとって大きな関心事である。
最近の GAN [citegoodfellow 2014] ベースの手法は、プライバシを保存する上で良い結果を示しており、生成されたデータはよりバイアスを受ける可能性がある。
高速で公平でフレキシブルでプライベートなデータ生成手法を設計する。
- 参考スコア(独自算出の注目度): 3.161257236965278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative modeling has been used frequently in synthetic data generation.
Fairness and privacy are two big concerns for synthetic data. Although Recent
GAN [\cite{goodfellow2014generative}] based methods show good results in
preserving privacy, the generated data may be more biased. At the same time,
these methods require high computation resources. In this work, we design a
fast, fair, flexible and private data generation method. We show the
effectiveness of our method theoretically and empirically. We show that models
trained on data generated by the proposed method can perform well (in inference
stage) on real application scenarios.
- Abstract(参考訳): 生成モデリングは、合成データ生成に頻繁に使われている。
公正性とプライバシーは、合成データにとって大きな関心事である。
最近の GAN [\cite{goodfellow2014generative}] ベースの手法は、プライバシを保存する上で良い結果を示すが、生成されたデータはより偏りがあるかもしれない。
同時に、これらの手法は高い計算資源を必要とする。
本研究では,高速で公平でフレキシブルでプライベートなデータ生成手法を設計する。
本手法の有効性を理論的および実証的に示す。
提案手法により生成されたデータに基づいてトレーニングされたモデルが,実際のアプリケーションシナリオ上で(推論段階で)良好に動作可能であることを示す。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - GenRec: A Flexible Data Generator for Recommendations [1.384948712833979]
GenRecは、現実的でよく知られた特性を示す合成ユーザ・イテム相互作用を生成するための新しいフレームワークである。
このフレームワークは潜在因子モデリングに基づく生成プロセスに基づいている。
論文 参考訳(メタデータ) (2024-07-23T15:53:17Z) - Synthetic Face Datasets Generation via Latent Space Exploration from Brownian Identity Diffusion [20.352548473293993]
顔認識(FR)モデルは、プライバシと倫理的懸念のある大規模データセットでトレーニングされている。
近年,FRモデルのトレーニングのために,合成データを用いて真のデータを補完あるいは置き換えることが提案されている。
ブラウン力を受ける軟質粒子の物理運動にインスパイアされた新しい手法を導入し, 様々な制約の下で潜在空間の正体をサンプリングする。
これを使って、いくつかの顔データセットを生成し、FRモデルをトレーニングすることでそれらをベンチマークし、我々のメソッドで生成されたデータは、以前のGANベースのデータセットのパフォーマンスを超え、現状と競合するパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-04-30T22:32:02Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Harnessing large-language models to generate private synthetic text [18.863579044812703]
DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本稿では、原データに対して差分的にプライベートな合成データを生成し、その合成データに基づいてモデルを非プライベートに訓練する代替手法について検討する。
プライベートな合成データを作るのは プライベートなモデルを訓練するより はるかに難しい
論文 参考訳(メタデータ) (2023-06-02T16:59:36Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - Using generative adversarial networks to synthesize artificial financial
datasets [2.376767664163658]
我々は、GANを用いて、研究とベンチマークの目的で、人工財務データを合成することを提案する。
このアプローチを3つのAmerican Expressデータセット上でテストし、適切にトレーニングされたGANがこれらのデータセットを高い忠実度で複製可能であることを示す。
論文 参考訳(メタデータ) (2020-02-06T14:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。