論文の概要: Latent Noise Injection for Private and Statistically Aligned Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2506.16636v1
- Date: Thu, 19 Jun 2025 22:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.277951
- Title: Latent Noise Injection for Private and Statistically Aligned Synthetic Data Generation
- Title(参考訳): 個人および統計的に整合した合成データ生成のための潜時ノイズ注入
- Authors: Rex Shen, Lu Tian,
- Abstract要約: データの合成は、スケーラブルでプライバシー保護の統計分析に欠かせないものとなっている。
マスク付き自己回帰流(MAF)を用いた潜時ノイズ注入法を提案する。
トレーニングされたモデルから直接サンプリングする代わりに、我々のメソッドは潜在空間の各データポイントを摂動させ、それをデータドメインにマップします。
- 参考スコア(独自算出の注目度): 7.240170769827935
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Synthetic Data Generation has become essential for scalable, privacy-preserving statistical analysis. While standard approaches based on generative models, such as Normalizing Flows, have been widely used, they often suffer from slow convergence in high-dimensional settings, frequently converging more slowly than the canonical $1/\sqrt{n}$ rate when approximating the true data distribution. To overcome these limitations, we propose a Latent Noise Injection method using Masked Autoregressive Flows (MAF). Instead of directly sampling from the trained model, our method perturbs each data point in the latent space and maps it back to the data domain. This construction preserves a one to one correspondence between observed and synthetic data, enabling synthetic outputs that closely reflect the underlying distribution, particularly in challenging high-dimensional regimes where traditional sampling struggles. Our procedure satisfies local $(\epsilon, \delta)$-differential privacy and introduces a single perturbation parameter to control the privacy-utility trade-off. Although estimators based on individual synthetic datasets may converge slowly, we show both theoretically and empirically that aggregating across $K$ studies in a meta analysis framework restores classical efficiency and yields consistent, reliable inference. We demonstrate that with a well-calibrated perturbation parameter, Latent Noise Injection achieves strong statistical alignment with the original data and robustness against membership inference attacks. These results position our method as a compelling alternative to conventional flow-based sampling for synthetic data sharing in decentralized and privacy-sensitive domains, such as biomedical research.
- Abstract(参考訳): シンセティックデータ生成は、スケーラブルでプライバシー保護の統計分析に欠かせないものとなっている。
正規化フローのような生成モデルに基づく標準的なアプローチは広く用いられてきたが、高次元設定における収束が遅く、真のデータ分布を近似する際の標準の1/\sqrt{n}$レートよりもゆっくりと収束することが多い。
これらの制約を克服するために,マスク付き自己回帰流(MAF)を用いた遅延ノイズ注入法を提案する。
トレーニングされたモデルから直接サンプリングする代わりに、我々のメソッドは潜在空間の各データポイントを摂動させ、それをデータドメインにマップします。
この構造は、観測されたデータと合成データとの1対1の対応を保ち、基礎となる分布を深く反映する合成出力を可能にする。
我々の手順は、ローカル$(\epsilon, \delta)$-differential privacyを満たし、プライバシとユーティリティのトレードオフを制御するために単一の摂動パラメータを導入します。
個々の合成データセットに基づく推定器は、ゆっくりと収束するかもしれないが、理論的にも経験的にも、メタ分析フレームワークで$K$の研究にまたがる集約は、古典的な効率を回復し、一貫性があり、信頼できる推論をもたらすことを示す。
高い校正度を有する摂動パラメータを用いて、遅延ノイズ注入は元のデータと強い統計的整合性を実現し、メンバーシップ推論攻撃に対するロバスト性を示す。
これらの結果は,バイオメディカル研究などの分散型・プライバシに敏感な領域における合成データ共有のための,従来のフローベースサンプリングの代替手段として,本手法を位置づけている。
関連論文リスト
- DispFormer: Pretrained Transformer for Flexible Dispersion Curve Inversion from Global Synthesis to Regional Applications [59.488352977043974]
本研究では、レイリー波位相と群分散曲線から$v_s$プロファイルを反転させるトランスフォーマーベースのニューラルネットワークであるDispFormerを提案する。
結果は、ラベル付きデータなしでもゼロショットのDispFormerは、基底の真実とよく一致する逆プロファイルを生成することを示している。
論文 参考訳(メタデータ) (2025-01-08T09:08:24Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - On the Inherent Privacy Properties of Discrete Denoising Diffusion Models [17.773335593043004]
本稿では、離散拡散モデルに固有のプライバシー保護の先駆的な理論的探索について述べる。
我々のフレームワークは、トレーニングデータセット内の各データポイントの潜在的なプライバシー漏洩を解明する。
当社のバウンダリは、$$$サイズのデータポイントによるトレーニングが、プライバシー漏洩の急増につながっていることも示しています。
論文 参考訳(メタデータ) (2023-10-24T05:07:31Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Noise-Aware Statistical Inference with Differentially Private Synthetic
Data [0.0]
DP合成データをまるで本物であるかのように単純に分析することは、人口レベルの推定に有効でないことを示す。
本稿では,多重計算分野の合成データ解析技術と合成データ生成技術を組み合わせることで,この問題に対処する。
我々は,最大エントロピーの原理を用いたノイズ対応合成データ生成アルゴリズム NAPSU-MQ を開発した。
論文 参考訳(メタデータ) (2022-05-28T16:59:46Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。