論文の概要: SMOTE and Mirrors: Exposing Privacy Leakage from Synthetic Minority Oversampling
- arxiv url: http://arxiv.org/abs/2510.15083v1
- Date: Thu, 16 Oct 2025 18:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.363653
- Title: SMOTE and Mirrors: Exposing Privacy Leakage from Synthetic Minority Oversampling
- Title(参考訳): SMOTEとミラー: シンセティック・マイノリティ・オーバーサンプリングからプライバシー漏洩を露呈する
- Authors: Georgi Ganev, Reza Nazari, Rees Davison, Amir Dizche, Xinmin Wu, Ralph Abbey, Jorge Silva, Emiliano De Cristofaro,
- Abstract要約: 我々は、SMOTE(Synthetic Minority Over-Sampling Technique)において、プライバシリークに関する最初の体系的研究を行う。
DistinSMOTEは、拡張データセットの合成レコードと完全に区別するものであり、ReconSMOTEは、完全な精度で合成データセットから実際のマイノリティレコードを再構築する。
我々の研究は、SMOTEが本質的に非私的であり、不公平にマイノリティな記録を公開していることを明らかにし、プライバシーに敏感なアプリケーションでの使用を再考する必要性を強調している。
- 参考スコア(独自算出の注目度): 12.706081519342883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Synthetic Minority Over-sampling Technique (SMOTE) is one of the most widely used methods for addressing class imbalance and generating synthetic data. Despite its popularity, little attention has been paid to its privacy implications; yet, it is used in the wild in many privacy-sensitive applications. In this work, we conduct the first systematic study of privacy leakage in SMOTE: We begin by showing that prevailing evaluation practices, i.e., naive distinguishing and distance-to-closest-record metrics, completely fail to detect any leakage and that membership inference attacks (MIAs) can be instantiated with high accuracy. Then, by exploiting SMOTE's geometric properties, we build two novel attacks with very limited assumptions: DistinSMOTE, which perfectly distinguishes real from synthetic records in augmented datasets, and ReconSMOTE, which reconstructs real minority records from synthetic datasets with perfect precision and recall approaching one under realistic imbalance ratios. We also provide theoretical guarantees for both attacks. Experiments on eight standard imbalanced datasets confirm the practicality and effectiveness of these attacks. Overall, our work reveals that SMOTE is inherently non-private and disproportionately exposes minority records, highlighting the need to reconsider its use in privacy-sensitive applications.
- Abstract(参考訳): SMOTE(Synthetic Minority Over-Sampling Technique)は、クラス不均衡に対処し、合成データを生成するための最も広く使われている手法の1つである。
その人気にもかかわらず、プライバシの影響にはほとんど注意が払われていないが、多くのプライバシに敏感なアプリケーションで広く使われている。
本研究は,SMOTEにおけるプライバシ・リークに関する最初の体系的な研究である。我々はまず,一般的な評価手法,すなわち,識別と距離・記録の指標が全く漏れを検知できず,また,メンバーシップ・推論・アタック(MIA)が高精度にインスタンス化可能であることを示すことから始める。
次に,SMOTEの幾何学的特性を利用した2つの新たな攻撃を非常に限定的な仮定で構築する: DistinSMOTE,ReconSMOTE。
どちらの攻撃も理論的に保証する。
8つの標準不均衡データセットの実験により、これらの攻撃の実用性と有効性が確認された。
全体として、われわれの研究は、SMOTEが本質的にプライバシーに敏感なアプリケーションでの使用を再考する必要性を浮き彫りにして、少数派記録を公開していることを明らかにしている。
関連論文リスト
- Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis [8.4361320391543]
タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場した。
合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一的モデルに依存しない脅威フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T16:53:38Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - TernaryVote: Differentially Private, Communication Efficient, and
Byzantine Resilient Distributed Optimization on Heterogeneous Data [50.797729676285876]
本稿では, 3次圧縮機と多数決機構を組み合わせて, 差分プライバシー, 勾配圧縮, ビザンチンレジリエンスを同時に実現するternaryVoteを提案する。
提案アルゴリズムのF差分プライバシー(DP)とビザンチンレジリエンスのレンズによるプライバシー保証を理論的に定量化する。
論文 参考訳(メタデータ) (2024-02-16T16:41:14Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against "Truly Anonymous" Synthetic Datasets [12.730435519914415]
実世界の合成データデプロイメントで使用されるプライバシメトリクスを調べ、その信頼性をいくつかの点で実証する。
ReconSynは、メトリクスによってプライベートと見なされるが、個々のレコードに固有の情報をリークする複数の合成データセットを生成するリコンストラクション攻撃である。
ReconSynは列車データから78-100%のアウトレーヤを復元し、ブラックボックスアクセスのみを1つの適合した生成モデルとプライバシメトリクスに含める。
論文 参考訳(メタデータ) (2023-12-08T15:42:28Z) - Achilles' Heels: Vulnerable Record Identification in Synthetic Data
Publishing [9.061271587514215]
合成データパブリッシングのための原則付き脆弱なレコード識別手法を提案する。
データセットやジェネレータ間で,従来のアドホック手法よりも優れていることを示す。
合成データジェネレータを差分的にプライベートにすると、脆弱性のあるレコードを正確に識別できることが示される。
論文 参考訳(メタデータ) (2023-06-17T09:42:46Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - A Linear Reconstruction Approach for Attribute Inference Attacks against Synthetic Data [1.5293427903448022]
合成データに対する新しい属性推論攻撃を導入する。
攻撃は任意の記録でも極めて正確であることを示す。
次に、プライバシー保護と統計ユーティリティ保護のトレードオフを評価する。
論文 参考訳(メタデータ) (2023-01-24T14:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。