論文の概要: Data Lineage Inference: Uncovering Privacy Vulnerabilities of Dataset Pruning
- arxiv url: http://arxiv.org/abs/2411.15796v1
- Date: Sun, 24 Nov 2024 11:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:07.788610
- Title: Data Lineage Inference: Uncovering Privacy Vulnerabilities of Dataset Pruning
- Title(参考訳): データリニアジ推論 - データプルーニングのプライバシ脆弱性を明らかにする
- Authors: Qi Li, Cheng-Long Wang, Yinzhi Cao, Di Wang,
- Abstract要約: 余剰集合内のデータがモデルトレーニングの前にのみ使用される場合でも、攻撃によってプルーニングフェーズのメンバシップ状態が検出可能であることを示す。
我々は、Data-Centric Membership Inferenceと呼ばれる新しいタスクを導入し、Data Lineage Inferenceというデータ中心のプライバシ推論パラダイムを提案する。
異なるプライバシリークのレベルが異なり、同じプルーニング手法でも異なるプライバシリスクを異なるプルーニング率で提示できることがわかった。
- 参考スコア(独自算出の注目度): 31.888075470799908
- License:
- Abstract: In this work, we systematically explore the data privacy issues of dataset pruning in machine learning systems. Our findings reveal, for the first time, that even if data in the redundant set is solely used before model training, its pruning-phase membership status can still be detected through attacks. Since this is a fully upstream process before model training, traditional model output-based privacy inference methods are completely unsuitable. To address this, we introduce a new task called Data-Centric Membership Inference and propose the first ever data-centric privacy inference paradigm named Data Lineage Inference (DaLI). Under this paradigm, four threshold-based attacks are proposed, named WhoDis, CumDis, ArraDis and SpiDis. We show that even without access to downstream models, adversaries can accurately identify the redundant set with only limited prior knowledge. Furthermore, we find that different pruning methods involve varying levels of privacy leakage, and even the same pruning method can present different privacy risks at different pruning fractions. We conducted an in-depth analysis of these phenomena and introduced a metric called the Brimming score to offer guidance for selecting pruning methods with privacy protection in mind.
- Abstract(参考訳): 本研究では,機械学習システムにおけるデータセットプルーニングにおけるデータプライバシの問題について,体系的に検討する。
この結果から, 余剰データセットのデータをモデルトレーニング前にのみ使用しても, 攻撃によってプルーニングフェーズのメンバシップ状態が検出できることがわかった。
これはモデルトレーニング前の完全なアップストリームプロセスであるため、従来のモデル出力ベースのプライバシ推論方法は、完全に適合しない。
そこで本研究では,データ中心メンバシップ推論(Data-Centric Membership Inference)という新たなタスクを導入し,データ線形推論(Data Lineage Inference,DALI)というデータ中心のプライバシ推論パラダイムを提案する。
このパラダイムの下では、WhoDis、CumDis、ArraDis、SpiderDisという4つのしきい値ベースの攻撃が提案されている。
下流モデルにアクセスできなくても、敵は事前知識に制限のある冗長集合を正確に識別できることを示す。
さらに,異なるプライバシリークのレベルが異なり,同じプルーニング手法でも異なるプライバシリスクを異なるプルーニング率で提示できることがわかった。
そこで我々は,これらの現象の詳細な分析を行い,プライバシ保護を念頭においてプルーニング手法を選択するための指針として,ブリミングスコア(Briming score)と呼ばれる指標を導入した。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Initialization Matters: Privacy-Utility Analysis of Overparameterized
Neural Networks [72.51255282371805]
我々は、最悪の近傍データセット上でのモデル分布間のKLばらつきのプライバシー境界を証明した。
このKLプライバシー境界は、トレーニング中にモデルパラメータに対して期待される2乗勾配ノルムによって決定される。
論文 参考訳(メタデータ) (2023-10-31T16:13:22Z) - Conditional Density Estimations from Privacy-Protected Data [0.0]
プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文 参考訳(メタデータ) (2023-10-19T14:34:17Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Differentially Private Linear Regression with Linked Data [3.9325957466009203]
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に焦点を当てている。
相関データを用いた線形回帰のための2つの微分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-01T21:00:19Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - Client-specific Property Inference against Secure Aggregation in
Federated Learning [52.8564467292226]
フェデレートラーニングは、さまざまな参加者の間で共通のモデルを協調的に訓練するための、広く使われているパラダイムとなっている。
多くの攻撃は、メンバーシップ、資産、または参加者データの完全な再構築のような機密情報を推測することは依然として可能であることを示した。
単純な線形モデルでは、集約されたモデル更新からクライアント固有のプロパティを効果的にキャプチャできることが示される。
論文 参考訳(メタデータ) (2023-03-07T14:11:01Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - A General Framework for Auditing Differentially Private Machine Learning [27.99806936918949]
本稿では,差分プライベートな学習者によって与えられるプライバシ保証を統計的に評価する枠組みを提案する。
本研究は、微分プライベート機械学習実装のプライバシを実証的に評価する一般的な手法を開発する。
論文 参考訳(メタデータ) (2022-10-16T21:34:18Z) - Uncertainty-Autoencoder-Based Privacy and Utility Preserving Data Type
Conscious Transformation [3.7315964084413173]
プライバシ・ユーティリティのトレードオフ問題に対処する逆学習フレームワークを2つの条件で提案する。
データタイプの無知な条件下では、プライバシメカニズムは、正確に1つのクラスを表す、カテゴリ機能の1ホットエンコーディングを提供する。
データ型認識条件下では、分類変数は各クラスごとに1つのスコアの集合で表される。
論文 参考訳(メタデータ) (2022-05-04T08:40:15Z) - Data-driven Regularized Inference Privacy [33.71757542373714]
データを衛生化するためのデータ駆動推論プライバシ保護フレームワークを提案する。
我々は変分法に基づく推論プライバシ・フレームワークを開発する。
プライバシー基準を推定するための実証的手法を提案する。
論文 参考訳(メタデータ) (2020-10-10T08:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。