論文の概要: Privacy-Preserving Fair Synthetic Tabular Data
- arxiv url: http://arxiv.org/abs/2503.02968v1
- Date: Tue, 04 Mar 2025 19:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:29.928807
- Title: Privacy-Preserving Fair Synthetic Tabular Data
- Title(参考訳): プライバシ保存型公正な語彙データ
- Authors: Fatima J. Sarmin, Atiquer R. Rahman, Christopher J. Henry, Noman Mohammed,
- Abstract要約: WGAN-GPモデルに基づくプライバシー保護・公正な合成データ生成装置であるPF-WGANを提案する。
プライバシと公正性の制約を加えて、プライバシを保存する公正なデータを生成することで、元のWGAN-GPを修正しました。
このアプローチにより、個人のプライバシを保護し、特定のグループに対してバイアスをかけないデータセットの公開が可能になる。
- 参考スコア(独自算出の注目度): 1.492801861693149
- License:
- Abstract: Sharing of tabular data containing valuable but private information is limited due to legal and ethical issues. Synthetic data could be an alternative solution to this sharing problem, as it is artificially generated by machine learning algorithms and tries to capture the underlying data distribution. However, machine learning models are not free from memorization and may introduce biases, as they rely on training data. Producing synthetic data that preserves privacy and fairness while maintaining utility close to the real data is a challenging task. This research simultaneously addresses both the privacy and fairness aspects of synthetic data, an area not explored by other studies. In this work, we present PF-WGAN, a privacy-preserving, fair synthetic tabular data generator based on the WGAN-GP model. We have modified the original WGAN-GP by adding privacy and fairness constraints forcing it to produce privacy-preserving fair data. This approach will enable the publication of datasets that protect individual's privacy and remain unbiased toward any particular group. We compared the results with three state-of-the-art synthetic data generator models in terms of utility, privacy, and fairness across four different datasets. We found that the proposed model exhibits a more balanced trade-off among utility, privacy, and fairness.
- Abstract(参考訳): 貴重だが私的な情報を含む表形式のデータの共有は、法的・倫理的な問題によって制限される。
合成データは、機械学習アルゴリズムによって人工的に生成され、基礎となるデータ分布をキャプチャしようとするため、この共有問題の代替ソリューションになり得る。
しかし、機械学習モデルは記憶のないものではなく、トレーニングデータに依存するためバイアスをもたらす可能性がある。
実際のデータに近いユーティリティを維持しながら、プライバシと公平性を保った合成データを生成するのは、難しい作業です。
本研究は, 合成データのプライバシーと公平性の両面を同時に扱う。
本稿では,WGAN-GPモデルに基づくプライバシ保護,公正な合成表データ生成装置であるPF-WGANを提案する。
プライバシと公正性の制約を加えて、プライバシを保存する公正なデータを生成することで、元のWGAN-GPを修正しました。
このアプローチにより、個人のプライバシを保護し、特定のグループに対してバイアスをかけないデータセットの公開が可能になる。
実用性、プライバシ、公正性の点で、4つの異なるデータセットで比較した結果を、最先端の3つの合成データジェネレータモデルと比較した。
提案したモデルは、ユーティリティ、プライバシ、公正性のバランスのとれたトレードオフを示すことがわかった。
関連論文リスト
- Synthetic Data Privacy Metrics [2.1213500139850017]
我々は、敵攻撃のシミュレーションを含む人気のある指標の長所と短所を概観する。
また、生成モデルを修正して、作成するデータのプライバシを高めるための現在のベストプラクティスについてもレビューします。
論文 参考訳(メタデータ) (2025-01-07T17:02:33Z) - Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains [9.123834467375532]
実データの代わりに、微分プライベート言語モデルから生成された合成データを用いて、高速領域におけるNLPの開発を容易にする可能性について検討する。
以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。
論文 参考訳(メタデータ) (2024-10-10T19:31:02Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Scaling While Privacy Preserving: A Comprehensive Synthetic Tabular Data
Generation and Evaluation in Learning Analytics [0.412484724941528]
プライバシーは学習分析(LA)の進歩に大きな障害となり、匿名化の不十分さやデータ誤用といった課題を提示している。
合成データは潜在的な対策として現れ、堅牢なプライバシー保護を提供する。
LAの合成データに関する以前の研究では、プライバシーとデータユーティリティの微妙なバランスを評価するのに不可欠な、徹底的な評価が欠如していた。
論文 参考訳(メタデータ) (2024-01-12T20:27:55Z) - Practical considerations on using private sampling for synthetic data [1.3654846342364308]
合成データ生成の異なるプライバシは、合成データを自由に使用しながらプライバシを保存する能力のために、多くの注目を集めている。
プライベートサンプリングは、プライバシーと正確性のために厳密な境界を持つ微分プライベートな合成データを構築する最初のノイズフリー手法である。
本稿では,プライベートサンプリングアルゴリズムの実装と,実例における制約の現実性について議論する。
論文 参考訳(メタデータ) (2023-12-12T10:20:04Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。