論文の概要: Generating High-quality Privacy-preserving Synthetic Data
- arxiv url: http://arxiv.org/abs/2602.06390v1
- Date: Fri, 06 Feb 2026 05:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.238482
- Title: Generating High-quality Privacy-preserving Synthetic Data
- Title(参考訳): 高品質なプライバシ保存合成データの生成
- Authors: David Yavo, Richard Khoury, Christophe Pere, Sadoune Ait Kaci Azzou,
- Abstract要約: 本稿では,このトレードオフを改善するために,任意の合成データ生成装置上に適用可能なモデル非依存のポストプロセッシングフレームワークについて検討する。
我々はこのフレームワークを、表データのための2つのニューラル生成モデル、フィードフォワードジェネレータ、変分オートエンコーダのためにインスタンス化する。
クレジットカード取引、心臓血管の健康、国勢調査に基づく収入の3つの公開データセットで評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic tabular data enables sharing and analysis of sensitive records, but its practical deployment requires balancing distributional fidelity, downstream utility, and privacy protection. We study a simple, model agnostic post processing framework that can be applied on top of any synthetic data generator to improve this trade off. First, a mode patching step repairs categories that are missing or severely underrepresented in the synthetic data, while largely preserving learned dependencies. Second, a k nearest neighbor filter replaces synthetic records that lie too close to real data points, enforcing a minimum distance between real and synthetic samples. We instantiate this framework for two neural generative models for tabular data, a feed forward generator and a variational autoencoder, and evaluate it on three public datasets covering credit card transactions, cardiovascular health, and census based income. We assess marginal and joint distributional similarity, the performance of models trained on synthetic data and evaluated on real data, and several empirical privacy indicators, including nearest neighbor distances and attribute inference attacks. With moderate thresholds between 0.2 and 0.35, the post processing reduces divergence between real and synthetic categorical distributions by up to 36 percent and improves a combined measure of pairwise dependence preservation by 10 to 14 percent, while keeping downstream predictive performance within about 1 percent of the unprocessed baseline. At the same time, distance based privacy indicators improve and the success rate of attribute inference attacks remains largely unchanged. These results provide practical guidance for selecting thresholds and applying post hoc repairs to improve the quality and empirical privacy of synthetic tabular data, while complementing approaches that provide formal differential privacy guarantees.
- Abstract(参考訳): 合成表データにより、機密レコードの共有と分析が可能になるが、その実践的な展開には、分散忠実度、下流ユーティリティ、プライバシ保護のバランスが必要である。
我々は,このトレードオフを改善するために,任意の合成データジェネレータ上に適用可能な,シンプルなモデルに依存しないポストプロセッシングフレームワークについて検討する。
まず、モードパッチのステップは、学習済みの依存関係をほとんど保存しながら、合成データに欠けているか、あるいは過小評価されているカテゴリを修復する。
第二に、k近傍のフィルターは、実際のデータポイントに近すぎる合成レコードを置き換え、実データと合成サンプルの最小距離を強制する。
本フレームワークは,表型データに対する2つのニューラル生成モデル,フィードフォワードジェネレータと変分オートエンコーダをインスタンス化し,クレジットカード取引,心臓血管健康,国勢調査に基づく収入を含む3つのパブリックデータセットで評価する。
我々は, 周辺距離や属性推論攻撃など, 限界分布と共同分布の類似性, 合成データで訓練し, 実データで評価したモデルの性能, およびいくつかの経験的プライバシ指標を評価する。
0.2から0.35の間の適度な閾値で、ポスト処理は、実際のカテゴリー分布と合成カテゴリー分布のばらつきを最大36%減らし、一方、下流予測性能を未処理ベースラインの約1%に抑えながら、ペア依存保存を10~14%改善する。
同時に、距離ベースのプライバシ指標が改善し、属性推論攻撃の成功率が大きく変わっていない。
これらの結果は,形式的な差分プライバシー保証を提供するアプローチを補完しながら,しきい値の選択とポストホック修復を適用して,合成表データの質と経験的プライバシを改善するための実践的なガイダンスを提供する。
関連論文リスト
- A Comprehensive Evaluation Framework for Synthetic Trip Data Generation in Public Transport [7.409483754602669]
合成データは、公共交通機関の研究でスマートカードデータを使用する際のプライバシーとアクセシビリティの課題に対して、有望な解決策を提供する。
本稿では,3つの相補的次元と3つの階層的レベルにまたがる合成旅行データを体系的に評価する枠組みを提案する。
結果として、合成データは本質的にプライバシを保証せず、"ワンサイズフィットオール"モデルは存在しないことが示される。
論文 参考訳(メタデータ) (2025-10-28T12:52:47Z) - High-dimensional Analysis of Synthetic Data Selection [44.67519806837088]
線形モデルでは,対象分布と合成データの分布の共分散が一般化誤差に影響を与えることを示す。
興味深いことに、線形モデルからの理論的な洞察は、ディープニューラルネットワークと生成モデルに受け継がれる。
論文 参考訳(メタデータ) (2025-10-09T12:06:31Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Enabling PSO-Secure Synthetic Data Sharing Using Diversity-Aware Diffusion Models [7.202078342390581]
個人データ上で拡散モデルをトレーニングするための一般的なフレームワークを提案する。
これにより、実データモデルの1パーセンテージポイント以内のパフォーマンスを達成する非個人的な合成データセットが生成される。
論文 参考訳(メタデータ) (2025-06-22T10:26:35Z) - Latent Noise Injection for Private and Statistically Aligned Synthetic Data Generation [7.240170769827935]
データの合成は、スケーラブルでプライバシー保護の統計分析に欠かせないものとなっている。
マスク付き自己回帰流(MAF)を用いた潜時ノイズ注入法を提案する。
トレーニングされたモデルから直接サンプリングする代わりに、我々のメソッドは潜在空間の各データポイントを摂動させ、それをデータドメインにマップします。
論文 参考訳(メタデータ) (2025-06-19T22:22:57Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - A Linear Reconstruction Approach for Attribute Inference Attacks against Synthetic Data [1.5293427903448022]
合成データに対する新しい属性推論攻撃を導入する。
攻撃は任意の記録でも極めて正確であることを示す。
次に、プライバシー保護と統計ユーティリティ保護のトレードオフを評価する。
論文 参考訳(メタデータ) (2023-01-24T14:56:36Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic
Data [0.0]
aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重するデータ共有を可能にするという約束がますます認識されている。
我々は,合成データソリューションの信頼性とプライバシリスクを定量化するための,ホールドアウトに基づく実証的評価フレームワークを紹介し,実証する。
論文 参考訳(メタデータ) (2021-04-01T17:30:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。