論文の概要: Generating Synthetic Data with Locally Estimated Distributions for Disclosure Control
- arxiv url: http://arxiv.org/abs/2210.00884v2
- Date: Sat, 15 Feb 2025 02:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:44.011316
- Title: Generating Synthetic Data with Locally Estimated Distributions for Disclosure Control
- Title(参考訳): 情報開示制御のための局所的推定分布を用いた合成データの生成
- Authors: Ali Furkan Kalay,
- Abstract要約: 本稿では,合成データセットの外部観測によるプライバシーリスクを軽減するための新しいアプローチを提案する。
ローカライズ・リサンプラー(LR)は、アウトラヤ駆動による開示リスクを効果的に軽減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sensitive datasets are often underutilized in research and industry due to privacy concerns, limiting the potential of valuable data-driven insights. Synthetic data generation presents a promising solution to address this challenge by balancing privacy protection with data utility. This paper introduces a new approach to mitigate privacy risks associated with outlier observations in synthetic datasets: the Local Resampler (LR). The LR leverages the $k$-nearest neighbors algorithm to generate synthetic data while minimizing disclosure risks by underrepresenting outliers, even when they are not detectable in marginal distributions. Theoretical and empirical analyses demonstrate that the LR effectively mitigates outlier-driven disclosure risks, and accurately replicates multimodal, skewed, and non-convex support distributions. The semiparametric nature of the LR ensures a low computational burden and works efficiently even with small samples. By parameterizing the balance between privacy risks and data utility, this approach promotes broader access to sensitive datasets for research.
- Abstract(参考訳): 敏感なデータセットは、プライバシー上の懸念から研究や業界では利用されていないことが多く、貴重なデータ駆動の洞察の可能性を制限している。
合成データ生成は、プライバシ保護とデータユーティリティのバランスをとることで、この問題に対処する有望なソリューションを提供する。
本稿では,合成データセットの外部観測に伴うプライバシーリスクを軽減するための新たなアプローチであるローカル・リサンプラー(LR)を提案する。
LRは、$k$-nearest neighborsアルゴリズムを利用して合成データを生成する。
理論的および実証的な分析により、LRは外乱駆動による開示リスクを効果的に軽減し、マルチモーダル、スキュード、非凸支持分布を正確に再現することを示した。
LRの半パラメトリック特性は計算負荷が低く、小さなサンプルでも効率的に動作する。
プライバシリスクとデータユーティリティのバランスをパラメータ化することにより、研究用の機密データセットへの広範なアクセスを促進する。
関連論文リスト
- Locally Private Nonparametric Contextual Multi-armed Bandits [10.579415536953132]
ローカルディファレンシャルプライバシ(LDP)の下での非パラメトリックコンテキスト多重武装バンディット(MAB)の課題に対処する。
一致したミニマックス下界で支持されるミニマックス最適性を示す一様信頼束縛型推定器を開発した。
論文 参考訳(メタデータ) (2025-03-11T07:00:57Z) - Debiasing Synthetic Data Generated by Deep Generative Models [40.165159490379146]
合成データ生成のための深部生成モデル(DGM)は、合成データ解析においてバイアスと不正確性を誘導する。
本稿では,DGMが生成する合成データを,特定のデータ解析のためにターゲットとする新たな戦略を提案する。
提案手法は, 偏差を考慮し, 収束率を向上し, 容易に近似された大きなサンプル分散を持つ推定器の計算を容易にする。
論文 参考訳(メタデータ) (2024-11-06T19:24:34Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime [63.851085173614]
MargCTGANは、非相関な辺縁部の特徴マッチングを追加し、結果として、下流ユーティリティと合成データの統計的性質が一貫した改善をもたらす。
論文 参考訳(メタデータ) (2023-07-16T10:28:49Z) - Differentially private sliced inverse regression in the federated
paradigm [3.539008590223188]
Sliced inverse regression(SIR)を拡張して、分散データの課題に対処し、プライバシと通信効率を優先する。
我々の手法はFSIR (Federated sliced inverse regression) と呼ばれ、複数のクライアント間で十分な次元削減部分空間を協調的に推定する。
論文 参考訳(メタデータ) (2023-06-10T00:32:39Z) - Feature Adaptation for Sparse Linear Regression [20.923321050404827]
スパース線形回帰は高次元統計学における中心的な問題である。
少数の近似依存を許容するアルゴリズムを提供する。
我々のフレームワークは、疎線形回帰のためのより広範な機能適応のフレームワークに適合する。
論文 参考訳(メタデータ) (2023-05-26T12:53:13Z) - PS-FedGAN: An Efficient Federated Learning Framework Based on Partially
Shared Generative Adversarial Networks For Data Privacy [56.347786940414935]
分散計算のための効果的な学習パラダイムとして、フェデレートラーニング(FL)が登場した。
本研究は,部分的なGANモデル共有のみを必要とする新しいFLフレームワークを提案する。
PS-FedGANと名付けられたこの新しいフレームワークは、異種データ分散に対処するためのGANリリースおよびトレーニングメカニズムを強化する。
論文 参考訳(メタデータ) (2023-05-19T05:39:40Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond [89.72693227960274]
本稿では,グループ分散ロバスト最適化 (GDRO) を,$m$以上の異なる分布をうまく処理するモデルを学習する目的で検討する。
各ラウンドのサンプル数を$m$から1に抑えるため、GDROを2人でプレイするゲームとして、一方のプレイヤーが実行し、他方のプレイヤーが非公開のマルチアームバンディットのオンラインアルゴリズムを実行する。
第2のシナリオでは、最大リスクではなく、平均的最上位k$リスクを最適化し、分散の影響を軽減することを提案する。
論文 参考訳(メタデータ) (2023-02-18T09:24:15Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。
勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。
実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文 参考訳(メタデータ) (2022-10-04T22:33:16Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - PL-$k$NN: A Parameterless Nearest Neighbors Classifier [0.24499092754102875]
k$-Nearest Neighborsは、多くの問題で使われている最も効果的で簡単なモデルの1つである。
本稿では、$k$の値を定義する必要性を回避した$k$-Nearest Neighbors分類器を提案する。
論文 参考訳(メタデータ) (2022-09-26T12:52:45Z) - Comparing the Utility and Disclosure Risk of Synthetic Data with Samples
of Microdata [0.6445605125467572]
データの実用性と開示リスクの計測方法に関するコンセンサスはない。
ユーティリティと関連するリスクが明確に理解されている合成国勢調査マイクロデータを作成する能力は、よりタイムリーで広い範囲のマイクロデータへのアクセスが可能になることを意味している。
本報告では, 合成データの有用性と開示リスクを, 異なるサンプル分画の原データのサンプルと比較し, 評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-02T20:38:29Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Bandit Samplers for Training Graph Neural Networks [63.17765191700203]
グラフ畳み込みネットワーク(GCN)の訓練を高速化するために, ばらつきを低減したサンプリングアルゴリズムが提案されている。
これらのサンプリングアルゴリズムは、グラフ注意ネットワーク(GAT)のような固定重みよりも学習重量を含む、より一般的なグラフニューラルネットワーク(GNN)には適用できない。
論文 参考訳(メタデータ) (2020-06-10T12:48:37Z) - Principled learning method for Wasserstein distributionally robust
optimization with local perturbations [21.611525306059985]
ワッサーシュタイン分布論的ロバスト最適化(WDRO)は、実験データ分布近傍の局所的な最悪のリスクを最小限に抑えるモデルを学習しようとする。
本稿では,新しい近似定理に基づく最小化器を提案し,それに対応するリスク一貫性結果を提供する。
提案手法は,ノイズのあるデータセットのベースラインモデルよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-06-05T09:32:37Z) - Learning Entangled Single-Sample Distributions via Iterative Trimming [28.839136703139225]
そこで本研究では, 反復トリミング標本に基づいて, 簡便かつ効率的な手法を解析し, トリミング標本集合上のパラメータを再推定する。
対数反復法では, 誤差が$lceil alpha n rceil$-th ノイズ点の雑音レベルにのみ依存する推定値が出力されることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。