論文の概要: Differentially Private Linear Regression with Linked Data
- arxiv url: http://arxiv.org/abs/2308.00836v2
- Date: Wed, 8 May 2024 01:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 19:20:21.717290
- Title: Differentially Private Linear Regression with Linked Data
- Title(参考訳): リンクデータを用いた微分プライベート線形回帰
- Authors: Shurong Lin, Elliot Paquette, Eric D. Kolaczyk,
- Abstract要約: コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に焦点を当てている。
相関データを用いた線形回帰のための2つの微分プライベートアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.9325957466009203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been increasing demand for establishing privacy-preserving methodologies for modern statistics and machine learning. Differential privacy, a mathematical notion from computer science, is a rising tool offering robust privacy guarantees. Recent work focuses primarily on developing differentially private versions of individual statistical and machine learning tasks, with nontrivial upstream pre-processing typically not incorporated. An important example is when record linkage is done prior to downstream modeling. Record linkage refers to the statistical task of linking two or more data sets of the same group of entities without a unique identifier. This probabilistic procedure brings additional uncertainty to the subsequent task. In this paper, we present two differentially private algorithms for linear regression with linked data. In particular, we propose a noisy gradient method and a sufficient statistics perturbation approach for the estimation of regression coefficients. We investigate the privacy-accuracy tradeoff by providing finite-sample error bounds for the estimators, which allows us to understand the relative contributions of linkage error, estimation error, and the cost of privacy. The variances of the estimators are also discussed. We demonstrate the performance of the proposed algorithms through simulations and an application to synthetic data.
- Abstract(参考訳): 現代の統計と機械学習のためのプライバシー保護方法論の確立に対する需要が高まっている。
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に主眼を置いており、非自明な上流前処理は通常組み込まれていない。
重要な例は、ダウンストリームモデリングの前にレコードリンクが実行されるときである。
レコードリンク(英: Record linkage)とは、同一のエンティティの2つ以上のデータセットをユニークな識別子なしでリンクする統計処理のことである。
この確率的手続きは、その後のタスクにさらなる不確実性をもたらす。
本稿では,線形回帰のための2つの微分プライベートアルゴリズムを提案する。
特に,回帰係数推定のための雑音勾配法と十分な統計摂動法を提案する。
相関誤差,推定誤差,プライバシコストの相対的寄与を理解できるように,推定器に対して有限サンプル誤差境界を提供することにより,プライバシ・精度のトレードオフを検討する。
推定器のばらつきについても論じる。
本稿では,シミュレーションによる提案アルゴリズムの性能評価と合成データへの応用について述べる。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Initialization Matters: Privacy-Utility Analysis of Overparameterized
Neural Networks [72.51255282371805]
我々は、最悪の近傍データセット上でのモデル分布間のKLばらつきのプライバシー境界を証明した。
このKLプライバシー境界は、トレーニング中にモデルパラメータに対して期待される2乗勾配ノルムによって決定される。
論文 参考訳(メタデータ) (2023-10-31T16:13:22Z) - Conditional Density Estimations from Privacy-Protected Data [0.0]
プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文 参考訳(メタデータ) (2023-10-19T14:34:17Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Generating Private Synthetic Data with Genetic Algorithms [29.756119782419955]
基礎となる機密データセットの統計特性を近似した微分プライベートな合成データを効率的に生成する問題について検討する。
ゼロ階最適化に基づく遺伝的アルゴリズムであるPrivate-GSDを提案する。
そこで,Private-GSDは,非微分クエリにおいて,微分可能なクエリを近似する精度で,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-05T21:19:37Z) - Simulation-based, Finite-sample Inference for Privatized Data [14.218697973204065]
本稿では,統計的に有効な信頼区間と仮説テストを生成するためのシミュレーションベースの"repro sample"手法を提案する。
本手法は様々な個人推論問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-03-09T15:19:31Z) - Privacy Induces Robustness: Information-Computation Gaps and Sparse Mean
Estimation [8.9598796481325]
本稿では, アルゴリズムと計算複雑性の両面において, 異なる統計問題に対する観測結果について検討する。
プライベートスパース平均推定のための情報計算ギャップを確立する。
また、プライバシーによって引き起こされる情報計算のギャップを、いくつかの統計や学習問題に対して証明する。
論文 参考訳(メタデータ) (2022-11-01T20:03:41Z) - Sensitivity analysis in differentially private machine learning using
hybrid automatic differentiation [54.88777449903538]
感性分析のための新しいテクスチブリド自動識別システム(AD)を導入する。
これにより、ニューラルネットワークをプライベートデータ上でトレーニングするなど、任意の微分可能な関数合成の感度をモデル化できる。
当社のアプローチは,データ処理の設定において,プライバシ損失に関する原則的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-09T07:19:23Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。