論文の概要: Evaluating Membership Inference Attacks in heterogeneous-data setups
- arxiv url: http://arxiv.org/abs/2502.18986v1
- Date: Wed, 26 Feb 2025 09:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:44.470279
- Title: Evaluating Membership Inference Attacks in heterogeneous-data setups
- Title(参考訳): 異種データ設定におけるメンバーシップ推論攻撃の評価
- Authors: Bram van Dartel, Marc Damie, Florian Hahn,
- Abstract要約: メンバーシップ推論攻撃 (MIA) が最も注目を集めた。
これらの攻撃では、攻撃者にはMLモデルとデータポイントが与えられ、データポイントがトレーニングに使用されたかどうかを推測する必要がある。
攻撃論文は通常、攻撃者とターゲットのデータセットが同じ分布からサンプリングされる設定をシミュレートする。
この設定は実験には便利だが、実際に行うことは滅多にない。
- 参考スコア(独自算出の注目度): 3.7619101673213664
- License:
- Abstract: Among all privacy attacks against Machine Learning (ML), membership inference attacks (MIA) attracted the most attention. In these attacks, the attacker is given an ML model and a data point, and they must infer whether the data point was used for training. The attacker also has an auxiliary dataset to tune their inference algorithm. Attack papers commonly simulate setups in which the attacker's and the target's datasets are sampled from the same distribution. This setting is convenient to perform experiments, but it rarely holds in practice. ML literature commonly starts with similar simplifying assumptions (i.e., "i.i.d." datasets), and later generalizes the results to support heterogeneous data distributions. Similarly, our work makes a first step in the generalization of the MIA evaluation to heterogeneous data. First, we design a metric to measure the heterogeneity between any pair of tabular data distributions. This metric provides a continuous scale to analyze the phenomenon. Second, we compare two methodologies to simulate a data heterogeneity between the target and the attacker. These setups provide opposite performances: 90% attack accuracy vs. 50% (i.e., random guessing). Our results show that the MIA accuracy depends on the experimental setup; and even if research on MIA considers heterogeneous data setups, we have no standardized baseline of how to simulate it. The lack of such a baseline for MIA experiments poses a significant challenge to risk assessments in real-world machine learning scenarios.
- Abstract(参考訳): 機械学習(ML)に対するすべてのプライバシ攻撃の中で、メンバシップ推論攻撃(MIA)が最も注目を集めた。
これらの攻撃では、攻撃者にはMLモデルとデータポイントが与えられ、データポイントがトレーニングに使用されたかどうかを推測する必要がある。
攻撃者は、推論アルゴリズムをチューニングするための補助データセットも持っている。
攻撃論文は通常、攻撃者とターゲットのデータセットが同じ分布からサンプリングされる設定をシミュレートする。
この設定は実験には便利だが、実際に行うことは滅多にない。
ML文学は、一般的に同様の単純化された仮定(すなわち「i.i.d.データセット」)から始まり、後に不均一なデータ分布をサポートするために結果を一般化する。
同様に、我々の研究は、異種データへのMIA評価の一般化の第一歩となる。
まず,各表データ分布間の不均一性を測定する指標を設計する。
この計量は、その現象を分析するための連続的な尺度を提供する。
第2に、ターゲットと攻撃者のデータ不均一性をシミュレートする2つの手法を比較する。
これらのセットアップは、90%の攻撃精度対50%(ランダムな推測)という、反対のパフォーマンスを提供する。
その結果、MIAの精度は実験的な設定に依存しており、MIAの研究が異種データの設定を考慮しても、それをシミュレーションする方法の標準化されたベースラインは存在しないことがわかった。
このようなMIA実験のベースラインの欠如は、現実世界の機械学習シナリオにおけるリスクアセスメントに重大な課題をもたらす。
関連論文リスト
- Federated Learning Under Attack: Exposing Vulnerabilities through Data
Poisoning Attacks in Computer Networks [17.857547954232754]
Federated Learning(FL)は、複数の分散デバイスやエッジサーバが生データを交換することなく、共同で共有モデルをトレーニングできる機械学習アプローチである。
クライアントとサーバ間のモデル更新のトレーニングと共有の間、データとモデルは異なるデータポゾン攻撃の影響を受けやすい。
我々は,ラベルフリップ (LF) と特徴中毒 (FP) の2種類のデータ中毒攻撃を検討した。
論文 参考訳(メタデータ) (2024-03-05T14:03:15Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Investigating Membership Inference Attacks under Data Dependencies [26.70764798408236]
プライバシーに敏感なデータに基づく機械学習モデルのトレーニングが、プライバシーに深刻な影響を及ぼす可能性のある新たな攻撃の扉を開いた。
そのような攻撃の1つは、メンバーシップ推論攻撃 (MIA) であり、特定のデータポイントがモデルをトレーニングするために使用されたかどうかを公開する。
我々は、訓練セットのすべてのメンバーと非メンバーが独立して同一に分散しているという制限的な仮定の下で、防衛を評価した。
論文 参考訳(メタデータ) (2020-10-23T00:16:46Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。