論文の概要: Synthesizing Realistic Test Data without Breaking Privacy
- arxiv url: http://arxiv.org/abs/2602.05833v1
- Date: Thu, 05 Feb 2026 16:22:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.036453
- Title: Synthesizing Realistic Test Data without Breaking Privacy
- Title(参考訳): プライバシーを破ることなくリアルなテストデータを合成する
- Authors: Laura Plein, Alexi Turcotte, Arina Hallemans, Andreas Zeller,
- Abstract要約: 本報告では, 従来と同一の統計特性を持つ合成試験データセットの実現可能性について検討する。
我々は、入力仕様からテストデータを生成するために、テストジェネレータ(ファザ)を使用し、元のデータによって設定された制約を保存する。
サンプルを進化させ、識別器で「良いサンプル」を決定することで、同じ統計分布に従うプライバシー保護データを生成することができる。
- 参考スコア(独自算出の注目度): 3.975269455219312
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: There is a need for synthetic training and test datasets that replicate statistical distributions of original datasets without compromising their confidentiality. A lot of research has been done in leveraging Generative Adversarial Networks (GANs) for synthetic data generation. However, the resulting models are either not accurate enough or are still vulnerable to membership inference attacks (MIA) or dataset reconstruction attacks since the original data has been leveraged in the training process. In this paper, we explore the feasibility of producing a synthetic test dataset with the same statistical properties as the original one, with only indirectly leveraging the original data in the generation process. The approach is inspired by GANs, with a generation step and a discrimination step. However, in our approach, we use a test generator (a fuzzer) to produce test data from an input specification, preserving constraints set by the original data; a discriminator model determines how close we are to the original data. By evolving samples and determining "good samples" with the discriminator, we can generate privacy-preserving data that follows the same statistical distributions are the original dataset, leading to a similar utility as the original data. We evaluated our approach on four datasets that have been used to evaluate the state-of-the-art techniques. Our experiments highlight the potential of our approach towards generating synthetic datasets that have high utility while preserving privacy.
- Abstract(参考訳): 機密性を損なうことなく、元のデータセットの統計分布を再現する合成トレーニングとテストデータセットが必要である。
合成データ生成にGAN(Generative Adversarial Networks)を活用するために、多くの研究がなされている。
しかし、結果として得られたモデルは十分に正確でないか、トレーニングプロセスで元のデータが活用されているため、メンバーシップ推論攻撃(MIA)やデータセット再構築攻撃にまだ脆弱である。
本稿では, 生成過程における原データのみを間接的に活用して, 原データと同一の統計特性を持つ合成試験データセットを作成する可能性について検討する。
このアプローチは、世代ステップと差別ステップを備えた、GANにインスパイアされたものだ。
しかし,本手法では,テストジェネレータ(ファザ)を用いて入力仕様からテストデータを生成し,元のデータに設定された制約を保存する。
サンプルを進化させ、識別器で「良いサンプル」を決定することで、同じ統計分布が元のデータセットであるプライバシー保護データを生成することができる。
我々は、最先端技術の評価に使用した4つのデータセットに対して、我々のアプローチを評価した。
われわれの実験は、プライバシーを維持しながら有効性の高い合成データセットを生成するアプローチの可能性を強調している。
関連論文リスト
- Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Your Data, My Model: Learning Who Really Helps in Federated Learning [47.0304843350031]
重要な課題は、どのピアがコラボレーションに最も有益かを決定することです。
本稿では,関係する協力者を選択するためのシンプルかつプライバシー保護手法を提案する。
我々のアプローチは、個人化されたフェデレーション学習のためのモデルに依存しない、データ駆動のピア選択を可能にする。
論文 参考訳(メタデータ) (2024-09-03T17:12:21Z) - DP-PQD: Privately Detecting Per-Query Gaps In Synthetic Data Generated By Black-Box Mechanisms [17.562365686511818]
本稿では,DP-PQDという新しいフレームワークを提案する。このフレームワークは,プライベートデータセットと合成データセットの問合せ回答が,ユーザの指定しきい値内にあるかどうかを検出する。
提案手法は,クエリごとのクエリ数,総和,中央値のクエリに対してプライベートアルゴリズム群を提供し,その特性を分析し,実験的に評価する。
論文 参考訳(メタデータ) (2023-09-15T17:38:59Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - A Kernelised Stein Statistic for Assessing Implicit Generative Models [10.616967871198689]
本稿では,合成データ生成装置の品質を評価するための基本手法を提案する。
合成データ生成装置からのサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定される。
論文 参考訳(メタデータ) (2022-05-31T23:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。