論文の概要: Finding Connections: Membership Inference Attacks for the Multi-Table Synthetic Data Setting
- arxiv url: http://arxiv.org/abs/2602.07126v1
- Date: Fri, 06 Feb 2026 19:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.461324
- Title: Finding Connections: Membership Inference Attacks for the Multi-Table Synthetic Data Setting
- Title(参考訳): 接続を見つける: マルチテーブル合成データ設定のためのメンバーシップ推論攻撃
- Authors: Joshua Ward, Chi-Hua Wang, Guang Cheng,
- Abstract要約: 合成関係データの経験的ユーザレベルのプライバシを監査するための新しいメンバーシップ推論攻撃(MIA)手法を提案する。
そこで我々は,No-Box 脅威モデルに基づく新たな敵攻撃である Multi-Table Membership Inference Attack (MT-MIA) を提案する。
我々は、MT-MIAを実世界のマルチテーブルデータセットで評価し、この脆弱性が最先端のリレーショナルデータジェネレータに存在することを実証した。
- 参考スコア(独自算出の注目度): 7.780592134085148
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Synthetic tabular data has gained attention for enabling privacy-preserving data sharing. While substantial progress has been made in single-table synthetic generation where data are modeled at the row or item level, most real-world data exists in relational databases where a user's information spans items across multiple interconnected tables. Recent advances in synthetic relational data generation have emerged to address this complexity, yet release of these data introduce unique privacy challenges as information can be leaked not only from individual items but also through the relationships that comprise a complete user entity. To address this, we propose a novel Membership Inference Attack (MIA) setting to audit the empirical user-level privacy of synthetic relational data and show that single-table MIAs that audit at an item level underestimate user-level privacy leakage. We then propose Multi-Table Membership Inference Attack (MT-MIA), a novel adversarial attack under a No-Box threat model that targets learned representations of user entities via Heterogeneous Graph Neural Networks. By incorporating all connected items for a user, MT-MIA better targets user-level vulnerabilities induced by inter-tabular relationships than existing attacks. We evaluate MT-MIA on a range of real-world multi-table datasets and demonstrate that this vulnerability exists in state-of-the-art relational synthetic data generators, employing MT-MIA to additionally study where this leakage occurs.
- Abstract(参考訳): 合成表データは、プライバシを保存するデータ共有を可能にするために注目を集めている。
データが行やアイテムレベルでモデル化される単一テーブル合成生成では、かなりの進歩があったが、実際のデータはリレーショナルデータベースに存在し、ユーザの情報が複数の相互接続テーブルにまたがるアイテムにまたがる。
合成リレーショナルデータ生成の最近の進歩は、この複雑さに対処するために現れているが、これらのデータのリリースは、個々のアイテムからだけでなく、完全なユーザエンティティを構成する関係を通じて情報を漏洩させることができるため、ユニークなプライバシー問題をもたらす。
そこで本研究では,合成関係データの経験的ユーザレベルのプライバシを監査するための新しいメンバーシップ推論攻撃(MIA)を提案し,ユーザレベルのプライバシリークを過小評価する項目レベルの監査を行う単一テーブルMIAを示す。
次に,不均一グラフニューラルネットワークを用いたユーザエンティティの学習表現をターゲットとした,No-Box脅威モデルに基づく新しい敵攻撃であるマルチテーブルメンバーシップ推論攻撃(MT-MIA)を提案する。
MT-MIAは、ユーザに対してすべての接続アイテムを組み込むことで、既存の攻撃よりも、タブラル間関係によって引き起こされるユーザレベルの脆弱性をより適切にターゲットする。
我々は、MT-MIAを実世界のマルチテーブルデータセットで評価し、この脆弱性が最先端のリレーショナルデータ生成装置に存在することを示す。
関連論文リスト
- When Tables Leak: Attacking String Memorization in LLM-Based Tabular Data Generation [7.12229180415536]
大規模言語モデル(LLM)は、最近、高品質な合成データを生成する際、顕著な性能を示した。
一般的な実装は、トレーニングデータから数値桁の暗記パターンを再現することで、プライバシーを侵害する傾向を示す。
提案手法は,世代間,数値を戦略的に摂動させる新しいサンプリング戦略を含む2つの方法である。
論文 参考訳(メタデータ) (2025-12-09T18:06:31Z) - How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis [8.4361320391543]
タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場した。
合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一的モデルに依存しない脅威フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T16:53:38Z) - Privacy Auditing Synthetic Data Release through Local Likelihood Attacks [7.780592134085148]
遺伝子様比攻撃(Gen-LRA)
Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。
その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
論文 参考訳(メタデータ) (2025-08-28T18:27:40Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - IRG: Generating Synthetic Relational Databases using Deep Learning with Insightful Relational Understanding [13.724085637262654]
本稿では,ユビキタスな実環境をうまく処理できるインクリメンタルジェネレータ(IRG)を提案する。
IRGは関係スキーマの整合性の維持を保証し、直接の祖先や子孫を超えた関係の深い理解を提供する。
異なるスケールの異なる分野における3つのオープンソースの実生活関係データセットの実験は、IRGが合成データのリレーショナルスキーマの妥当性とデータの忠実さと有用性を維持できるという利点を示している。
論文 参考訳(メタデータ) (2023-12-23T07:47:58Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - GenSyn: A Multi-stage Framework for Generating Synthetic Microdata using
Macro Data Sources [21.32471030724983]
人口を特徴付ける個人レベルのデータ(マイクロデータ)は多くの現実世界の問題を研究するのに不可欠である。
本研究では,高分解能データの抽出方法として合成データ生成について検討する。
論文 参考訳(メタデータ) (2022-12-08T01:22:12Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。