論文の概要: Curation Leaks: Membership Inference Attacks against Data Curation for Machine Learning
- arxiv url: http://arxiv.org/abs/2603.00811v1
- Date: Sat, 28 Feb 2026 21:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.369414
- Title: Curation Leaks: Membership Inference Attacks against Data Curation for Machine Learning
- Title(参考訳): Curation Leaks: 機械学習のためのデータキュレーションに対するメンバシップ推論攻撃
- Authors: Dariush Wahdany, Matthew Jagielski, Adam Dziedzic, Franziska Boenisch,
- Abstract要約: さらなる保護がなければ、キュレーションパイプラインはプライベート情報を漏洩する可能性がある。
それぞれのステージがプライベートデータセットに関する情報を公開し、キュレーションをガイドしたプライベートデータに関する公開データ漏洩メンバシップ情報に専用にトレーニングされたモデルでさえも示す。
- 参考スコア(独自算出の注目度): 36.4616907441652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In machine learning, curation is used to select the most valuable data for improving both model accuracy and computational efficiency. Recently, curation has also been explored as a solution for private machine learning: rather than training directly on sensitive data, which is known to leak information through model predictions, the private data is used only to guide the selection of useful public data. The resulting model is then trained solely on curated public data. It is tempting to assume that such a model is privacy-preserving because it has never seen the private data. Yet, we show that without further protection, curation pipelines can still leak private information. Specifically, we introduce novel attacks against popular curation methods, targeting every major step: the computation of curation scores, the selection of the curated subset, and the final trained model. We demonstrate that each stage reveals information about the private dataset and that even models trained exclusively on curated public data leak membership information about the private data that guided curation. These findings highlight the previously overlooked inherent privacy risks of data curation and show that privacy assessment must extend beyond the training procedure to include the data selection process. Our differentially private adaptations of curation methods effectively mitigate leakage, indicating that formal privacy guarantees for curation are a promising direction.
- Abstract(参考訳): 機械学習において、キュレーションはモデル精度と計算効率の両方を改善するために最も価値のあるデータを選択するために使用される。
近年、プライベート機械学習のソリューションとしてキュレーションが検討されている。モデル予測を通じて情報を漏洩させることで知られているセンシティブなデータを直接トレーニングするのではなく、このプライベートデータは有用な公開データの選択をガイドするためにのみ使用される。
結果のモデルは、キュレートされた公開データにのみトレーニングされる。
このようなモデルは、プライベートデータを見たことがないので、プライバシ保護であると仮定する傾向があります。
しかし、さらなる保護がなければ、キュレーションパイプラインはプライベート情報を漏洩させる可能性がある。
具体的には、キュレーションスコアの計算、キュレーションサブセットの選択、最終的なトレーニングモデルなど、一般的なキュレーション手法に対する新たな攻撃を導入する。
それぞれのステージがプライベートデータセットに関する情報を公開し、キュレーションをガイドしたプライベートデータに関する公開データ漏洩メンバシップ情報に専用にトレーニングされたモデルでさえも示す。
これらの調査結果は、これまで見過ごされていたデータキュレーションの固有のプライバシーリスクを強調し、プライバシアセスメントがデータ選択プロセスを含むトレーニング手順を超えて拡張されなければならないことを示している。
キュレーション手法の個人的適応は、キュレーションの正式なプライバシー保証が有望な方向であることを示唆し、リークを効果的に軽減する。
関連論文リスト
- A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Simulation-based Bayesian Inference from Privacy Protected Data [0.0]
プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文 参考訳(メタデータ) (2023-10-19T14:34:17Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Certified Data Removal in Sum-Product Networks [78.27542864367821]
収集したデータの削除は、データのプライバシを保証するのに不十分であることが多い。
UnlearnSPNは、訓練された総生産ネットワークから単一データポイントの影響を取り除くアルゴリズムである。
論文 参考訳(メタデータ) (2022-10-04T08:22:37Z) - SecretGen: Privacy Recovery on Pre-Trained Models via Distribution
Discrimination [17.916489394284284]
本研究では,新たなプライベートデータ再構築フレームワークであるSecretGenを提案する。
SecretGenは、真のクラスの予測に関する事前の知識を必要としない。
私たちはSecretGenが、そのような事前知識を活用するものと比較して、同様のパフォーマンスでプライベートデータを復元できることを示します。
論文 参考訳(メタデータ) (2022-07-25T15:35:07Z) - Personalized PATE: Differential Privacy for Machine Learning with
Individual Privacy Guarantees [1.2691047660244335]
トレーニングデータ内に、パーソナライズされたプライバシ保証の異なるMLモデルのトレーニングを支援する3つの新しい方法を提案する。
実験により, 個人化されたプライバシ手法は, 非個人化されたベースラインよりも高い精度のモデルが得られることがわかった。
論文 参考訳(メタデータ) (2022-02-21T20:16:27Z) - Towards a Data Privacy-Predictive Performance Trade-off [2.580765958706854]
分類タスクにおけるデータプライバシと予測性能のトレードオフの存在を評価する。
従来の文献とは異なり、プライバシーのレベルが高ければ高いほど、予測性能が向上することを確認した。
論文 参考訳(メタデータ) (2022-01-13T21:48:51Z) - Chasing Your Long Tails: Differentially Private Prediction in Health
Care Settings [34.26542589537452]
差分プライベート(DP)学習の方法は、プライバシ保証付きモデルを学習するための汎用的なアプローチを提供する。
DP学習の現代的な手法は、情報に過度にユニークなと判断される情報を検閲するメカニズムを通じて、プライバシーを確保する。
我々はDP学習に最先端の手法を用いて,臨床予測タスクにおけるプライバシ保護モデルを訓練する。
論文 参考訳(メタデータ) (2020-10-13T19:56:37Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z) - Utility-aware Privacy-preserving Data Releasing [7.462336024223669]
本稿では2段階の摂動に基づくプライバシー保護データ公開フレームワークを提案する。
まず、特定の事前定義されたプライバシとユーティリティの問題がパブリックドメインデータから学習される。
そして、学習した知識を活用して、データ所有者のデータを民営化したデータに正確に摂動させます。
論文 参考訳(メタデータ) (2020-05-09T05:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。